4月18日,xAI发布了两个独立的语音API:Grok STT(语音转文字)和Grok TTS(文字转语音)。面向的是企业开发者,不是普通用户。
这套技术之前一直在给Tesla车载系统、Starlink客服电话和Grok手机App用,这次把它单独拆出来开放。
两个API的具体能力
STT:语音转文字
- 支持25种语言的转录
- 批处理和流式传输两种模式可选
- 单词级时间戳(知道每个词是什么时间说的)
- 说话人区分(diarization),能识别多个说话人
- 支持12种音频格式:WAV、MP3、OGG、Opus、FLAC、AAC、MP4等
- 单次最大500MB文件
TTS:文字转语音
- 支持20种语言
- 5种声音可选:Ara、Eve、Leo、Rex、Sal
- 支持内联情感标签:[laugh](笑声)、[sigh](叹气)、[breath](呼吸声)
- 支持语气标签:whisper(低语模式)、emphasis(强调模式)
- 单次REST请求最大15000字符
- WebSocket流式传输支持无限长度内容
定价
| 服务 | 模式 | 价格 |
|---|---|---|
| STT | 批处理 | $0.10/小时 |
| STT | 流式传输 | $0.20/小时 |
| TTS | — | $4.20/百万字符 |
比较一下主要竞争对手:ElevenLabs的TTS大概在$11-18/百万字符范围,Deepgram的STT批处理约$0.19/小时。xAI的STT定价相当激进,TTS也低不少。
跑分数据
xAI给出了几组对比测试结果:
电话通话场景——实体识别错误率:
| 服务 | 错误率 |
|---|---|
| Grok STT | 5.0% |
| ElevenLabs | 12.0% |
| Deepgram | 13.5% |
| AssemblyAI | 21.3% |
视频/播客场景——词错误率:
| 服务 | 错误率 |
|---|---|
| Grok STT | 2.4% |
| ElevenLabs | 2.4% |
| Deepgram | 3.0% |
| AssemblyAI | 3.2% |
电话通话场景的领先优势比较明显——5%对比ElevenLabs的12%,差了一倍多。播客/视频转录和ElevenLabs持平。
得说清楚:这是xAI自己发布的数据,没有第三方独立复现,测试集和方法论没有完全公开。参考但别全信。
面向什么场景
xAI给出的参考用例:
- 会议转录和企业语音助手
- 呼叫中心质检和客服对话分析
- 播客和有声内容批量生成
- IVR(电话语音响应系统)
- 无障碍功能、实时字幕生成
说白了就是ElevenLabs、Deepgram、AssemblyAI在做的那些企业语音AI市场。
一个重要背景
这套API是从xAI的生产基础设施里拆出来的,不是专门为开发者新建的。Tesla车机语音、Starlink客服电话、Grok手机App的语音功能,都在用同一套系统。
这意味着两件事:一,系统在真实大流量环境里跑过,不是纯实验室数据;二,xAI本身有持续优化这套系统的动力,因为它的自家产品在用。
当然,面向企业API和面向自家产品是两件事。API的SLA(服务等级协议)、可用性保证、企业合规认证这些xAI都没详细说明,这才是实际落地时最关键的考量,尤其在金融、医疗这类对合规要求高的场景。
对语音AI市场的影响
ElevenLabs、Deepgram、AssemblyAI现在面临一个共同的处境:一个坐拥大规模真实数据的公司进来了,而且定价更低。
xAI手里有X平台的海量对话数据、Tesla的车内语音数据、Starlink的客服数据。这些数据的规模和场景多样性,普通语音AI公司很难匹配。
不过语音AI的竞争不止是识别率。医疗用语识别、法律合规转录、小语种深度支持、低延迟实时场景——这些细分领域垂直公司还有位置。Deepgram专注开发者工具的深度集成,ElevenLabs在语音克隆和情感表达上有积累,AssemblyAI有完整的数据分析管线。
大厂进来不等于垂直公司死,但得给客户一个更清晰的”为什么选我”了。
参考来源:xAI Launches Standalone Grok Speech-to-Text and Text-to-Speech APIs, Targeting Enterprise Voice Developers(MarkTechPost)