xAI上线了语音API：phone call识别出错率5%，ElevenLabs还有12% - News

4月18日，xAI发布了两个独立的语音API：Grok STT（语音转文字）和Grok TTS（文字转语音）。面向的是企业开发者，不是普通用户。

这套技术之前一直在给Tesla车载系统、Starlink客服电话和Grok手机App用，这次把它单独拆出来开放。

两个API的具体能力

比较一下主要竞争对手：ElevenLabs的TTS大概在$11-18/百万字符范围，Deepgram的STT批处理约$0.19/小时。xAI的STT定价相当激进，TTS也低不少。

xAI给出了几组对比测试结果：

电话通话场景——实体识别错误率：

视频/播客场景——词错误率：

电话通话场景的领先优势比较明显——5%对比ElevenLabs的12%，差了一倍多。播客/视频转录和ElevenLabs持平。

得说清楚：这是xAI自己发布的数据，没有第三方独立复现，测试集和方法论没有完全公开。参考但别全信。

xAI给出的参考用例：

说白了就是ElevenLabs、Deepgram、AssemblyAI在做的那些企业语音AI市场。

这套API是从xAI的生产基础设施里拆出来的，不是专门为开发者新建的。Tesla车机语音、Starlink客服电话、Grok手机App的语音功能，都在用同一套系统。

这意味着两件事：一，系统在真实大流量环境里跑过，不是纯实验室数据；二，xAI本身有持续优化这套系统的动力，因为它的自家产品在用。

当然，面向企业API和面向自家产品是两件事。API的SLA（服务等级协议）、可用性保证、企业合规认证这些xAI都没详细说明，这才是实际落地时最关键的考量，尤其在金融、医疗这类对合规要求高的场景。

ElevenLabs、Deepgram、AssemblyAI现在面临一个共同的处境：一个坐拥大规模真实数据的公司进来了，而且定价更低。

xAI手里有X平台的海量对话数据、Tesla的车内语音数据、Starlink的客服数据。这些数据的规模和场景多样性，普通语音AI公司很难匹配。

不过语音AI的竞争不止是识别率。医疗用语识别、法律合规转录、小语种深度支持、低延迟实时场景——这些细分领域垂直公司还有位置。Deepgram专注开发者工具的深度集成，ElevenLabs在语音克隆和情感表达上有积累，AssemblyAI有完整的数据分析管线。

大厂进来不等于垂直公司死，但得给客户一个更清晰的”为什么选我”了。

参考来源：xAI Launches Standalone Grok Speech-to-Text and Text-to-Speech APIs, Targeting Enterprise Voice Developers（MarkTechPost）