亚马逊Ring试了40家AI语音供应商,挑了Vapi:日跑500万通电话,估值冲到$5亿
亚马逊Ring去年客服电话爆了。他们试了40家AI语音供应商,最后挑了一家叫Vapi的初创。 5月12日,Vapi官宣了 $50M B轮——估值 $5亿,比上一轮翻得很猛。Peak XV Partners领投,M12(微软)、Kleiner
共 9 篇文章
亚马逊Ring去年客服电话爆了。他们试了40家AI语音供应商,最后挑了一家叫Vapi的初创。 5月12日,Vapi官宣了 $50M B轮——估值 $5亿,比上一轮翻得很猛。Peak XV Partners领投,M12(微软)、Kleiner
语音AI的钱真砸进来了。 Wispr AI——做Wispr Flow这款AI听写工具的那家——五月十二号Bloomberg爆出消息:正在谈一轮$260M融资,估值要冲到$20亿。 去年底刚估$7亿。半年时间,三倍。 这家公司到底做啥的Wis
5月5日,ElevenLabs 把它的 D 轮第三轮 close 了,估值锁在110亿美元,融资总额从最早2月公告的5亿涨到5.5亿美元以上。但这条新闻里更刺眼的不是融资,是营收—— Q1 2026 ARR 冲到5亿美元,年底前还是3.5亿
5 月 7 日,OpenAI 一口气发了三个语音模型,把 Realtime API 那条产品线彻底重做了一遍。 先把名字摆出来: GPT-Realtime-2 —— 能边推理边说话的对话模型 GPT-Realtime-Translate —
τ-voice Bench这个公开榜单,过去一年都是Gemini 3.1 Flash Live和GPT Realtime你来我往。4月25日xAI扔了个新模型上去,直接拿了67.3%。 下一名Gemini 3.1 Flash Live:43
4月18日,xAI发布了两个独立的语音API:Grok STT(语音转文字)和Grok TTS(文字转语音)。面向的是企业开发者,不是普通用户。 这套技术之前一直在给Tesla车载系统、Starlink客服电话和Grok手机App用,这次把
3月30日,阿里Qwen团队丢出了Qwen3.5-Omni,这是他们第一个真正意义上的全模态模型——文字、图片、音频、视频全部塞进同一个模型里处理,不是那种把几个专门模型拼在一起的拼接式架构。 一个模型,四种模态之前市面上的多模态系统大多是
3月26日,Mistral发布了Voxtral TTS,它们的第一个语音模型。 4B参数,开放权重,人工评测自然度超过ElevenLabs Flash v2.5,API定价0.016美元/千字,可以直接跑在自己的服务器上——这是这
3月26日,Google发布了Gemini 3.1 Flash Live。 如果你以为这只是一个更快、更便宜的语音合成API,那值得重新看一下。这个模型在技术架构上做了一个根本性的改变。 传统语音AI是怎么工作的原来的AI语音交互,基本上是