语音AI的钱真砸进来了。
Wispr AI——做Wispr Flow这款AI听写工具的那家——五月十二号Bloomberg爆出消息:正在谈一轮$260M融资,估值要冲到$20亿。
去年底刚估$7亿。半年时间,三倍。
这家公司到底做啥的
Wispr Flow就一个用法:你说话,它把话写成各种风格的文字,自动塞进你正在用的任何App里。
- 写邮件,开口说就行
- Slack回复,开口说就行
- 写代码注释、写文档、写PRD——通通开口说
不是把语音转文字的转录工具——那种产品Otter、Krisp做了很多年了。Wispr Flow做的是「转录之后再处理」:把你的「呃」、「等等」、「这个那个」清掉,把口语的逻辑整理成书面表达,按你正在用的App的风格调一下口吻。
听起来很轻,但用户基数说明问题。
几个数字值得说
| 指标 | 数字 |
|---|---|
| 累计下载 | 2.5M+(2025年底到2026年初) |
| 印度市场占比 | 14%(仅次于美国) |
| 非英语使用比例 | 60% |
| 支持语言 | 104+ |
| 平台 | macOS / Windows / iOS / Android |
| 这次融资 | $260M |
| 投后估值 | $20亿 |
| 半年前估值 | $7亿 |
| 领投 | Menlo Ventures |
60%的使用是非英语——这个数字挺有意思。
大部分美国startup的产品,先做英语市场,然后慢慢往外扩。Wispr Flow刚好相反,印度和欧洲使用占比远超预期。原因不复杂:非英语母语的用户用键盘打英文本来就慢,用AI说话生成英文反而更顺手。这是个被低估的市场结构。
为啥这一波融资这么猛
不止Wispr一家。
Q1 2026,全球VC往语音AI赛道砸了**$70亿**。这只是一个季度。
ElevenLabs三个月ARR从$3.5亿干到$5亿,BlackRock和Nvidia赶在估值再涨之前进来;Mistral开源了4B语音模型;OpenAI的GPT-Realtime-2刚发了几天;xAI的Grok语音模型把客服都干上了Starlink。
语音AI变成了一个独立赛道,原因是技术路径终于跑通了:
- 实时性:之前1秒延迟,现在200毫秒能出声
- 多语言:从十几种扩到一百多种
- 情感和语气:能听出你的犹豫和疑问,回话能带语气
- 跨设备:手机、电脑、车、耳机都能跑
下游应用炸出来:客服、教育、医疗、内容创作。每个都是大市场。
Menlo为啥又加注
Menlo Ventures是Wispr的Series A领投,这次又是$260M的领投方。
半年内一家VC从早期投资人变成大笔加注的主力,常见的判断是两条:
- 数据指标涨得快到自己都不敢延后
- 怕被红杉、a16z这种插队进来抢份额
2.5M下载、60%海外、Fortune 500进了几家——这些数字摆在那儿。Menlo看懂了,不愿意稀释。
更深一层的逻辑是:Wispr Flow的产品形态非常底层。它不是一个App,是一个跨App的输入方式。一旦用户养成习惯,迁移成本极高——比换浏览器还高。这种东西成长曲线会非常陡,但前期数据不会特别花哨。
VC看到的不是当下的收入,是「未来这玩意会不会变成所有人输入的默认方式」。
这事的下一步
Wispr下一步要打两个仗。
第一仗:操作系统的同类功能。Apple的Dictation、Google刚发布的Gboard Rambler、微软Office里的Copilot Voice,全都在做类似的事。Wispr的护城河是「跨App、风格匹配、多语言」,但这些大厂只要愿意投入,能复制大部分。
第二仗:Enterprise SKU。现在的Fortune 500客户主要是个人用户层面的渗透。要把企业版做成一个独立产品线,意味着SSO、合规审计、IT管理面板这些东西要全部跟上。$2B估值要兑现,靠的是企业付费,不是个人订阅。
至于行业整体——
全球语音识别市场规模预测2026年是$220亿。AI重新切了这块蛋糕。下半年大概率还有更狠的融资数字出来。
参考来源:AI Dictation Startup Wispr in Funding Talks at $2 Billion Value(Bloomberg);AI dictation startup Wispr could secure $260Mn funding at $2Bn valuation(The Tech Portal)