xAI上线了语音API:phone call识别出错率5%,ElevenLabs还有12%

4月18日,xAI发布了两个独立的语音API:Grok STT(语音转文字)和Grok TTS(文字转语音)。面向的是企业开发者,不是普通用户。

这套技术之前一直在给Tesla车载系统、Starlink客服电话和Grok手机App用,这次把它单独拆出来开放。

两个API的具体能力

STT:语音转文字

  • 支持25种语言的转录
  • 批处理和流式传输两种模式可选
  • 单词级时间戳(知道每个词是什么时间说的)
  • 说话人区分(diarization),能识别多个说话人
  • 支持12种音频格式:WAV、MP3、OGG、Opus、FLAC、AAC、MP4等
  • 单次最大500MB文件

TTS:文字转语音

  • 支持20种语言
  • 5种声音可选:Ara、Eve、Leo、Rex、Sal
  • 支持内联情感标签:[laugh](笑声)、[sigh](叹气)、[breath](呼吸声)
  • 支持语气标签:whisper(低语模式)、emphasis(强调模式)
  • 单次REST请求最大15000字符
  • WebSocket流式传输支持无限长度内容

定价

服务 模式 价格
STT 批处理 $0.10/小时
STT 流式传输 $0.20/小时
TTS $4.20/百万字符

比较一下主要竞争对手:ElevenLabs的TTS大概在$11-18/百万字符范围,Deepgram的STT批处理约$0.19/小时。xAI的STT定价相当激进,TTS也低不少。

跑分数据

xAI给出了几组对比测试结果:

电话通话场景——实体识别错误率:

服务 错误率
Grok STT 5.0%
ElevenLabs 12.0%
Deepgram 13.5%
AssemblyAI 21.3%

视频/播客场景——词错误率:

服务 错误率
Grok STT 2.4%
ElevenLabs 2.4%
Deepgram 3.0%
AssemblyAI 3.2%

电话通话场景的领先优势比较明显——5%对比ElevenLabs的12%,差了一倍多。播客/视频转录和ElevenLabs持平。

得说清楚:这是xAI自己发布的数据,没有第三方独立复现,测试集和方法论没有完全公开。参考但别全信。

面向什么场景

xAI给出的参考用例:

  • 会议转录和企业语音助手
  • 呼叫中心质检和客服对话分析
  • 播客和有声内容批量生成
  • IVR(电话语音响应系统)
  • 无障碍功能、实时字幕生成

说白了就是ElevenLabs、Deepgram、AssemblyAI在做的那些企业语音AI市场。

一个重要背景

这套API是从xAI的生产基础设施里拆出来的,不是专门为开发者新建的。Tesla车机语音、Starlink客服电话、Grok手机App的语音功能,都在用同一套系统。

这意味着两件事:一,系统在真实大流量环境里跑过,不是纯实验室数据;二,xAI本身有持续优化这套系统的动力,因为它的自家产品在用。

当然,面向企业API和面向自家产品是两件事。API的SLA(服务等级协议)、可用性保证、企业合规认证这些xAI都没详细说明,这才是实际落地时最关键的考量,尤其在金融、医疗这类对合规要求高的场景。

对语音AI市场的影响

ElevenLabs、Deepgram、AssemblyAI现在面临一个共同的处境:一个坐拥大规模真实数据的公司进来了,而且定价更低

xAI手里有X平台的海量对话数据、Tesla的车内语音数据、Starlink的客服数据。这些数据的规模和场景多样性,普通语音AI公司很难匹配。

不过语音AI的竞争不止是识别率。医疗用语识别、法律合规转录、小语种深度支持、低延迟实时场景——这些细分领域垂直公司还有位置。Deepgram专注开发者工具的深度集成,ElevenLabs在语音克隆和情感表达上有积累,AssemblyAI有完整的数据分析管线。

大厂进来不等于垂直公司死,但得给客户一个更清晰的”为什么选我”了。

参考来源:xAI Launches Standalone Grok Speech-to-Text and Text-to-Speech APIs, Targeting Enterprise Voice Developers(MarkTechPost)