Grok新语音模型把Gemini甩开30个百分点：Starlink客服已经在用，五个咨询里有一个直接付钱开通 - News

τ-voice Bench这个公开榜单，过去一年都是Gemini 3.1 Flash Live和GPT Realtime你来我往。4月25日xAI扔了个新模型上去，直接拿了67.3%。

下一名Gemini 3.1 Flash Live：43.8%。

中间这23.5个百分点的差距，在LLM benchmark里不叫”领先”，叫”另一个量级”。

更值得说的不是跑分。是这模型已经在Starlink的客服系统里真在用了。

grok-voice-think-fast-1.0：先看几个数字

模型叫grok-voice-think-fast-1.0，官方定位是”full-duplex语音agent”。full-duplex的意思是——它不用等你说完才能回话，可以一边听一边说，像两个人正常对话。

τ-voice Bench各垂直领域的得分：

领域	grok-voice-think-fast-1.0	第二名
零售	62.3%	45.6%
航空	66.0%	64.0%
电信	73.7%	40.4%

电信这一栏拉开的差距最离谱。73.7%对40.4%，几乎翻倍。这不是参数堆出来的，是xAI在客服这种典型electronics/account场景下专门做了大量训练。

支持25+种语言，能在嘈杂环境、口音、被打断的情况下保持稳定。

它的”想”是怎么不卡顿的

最有意思的技术点叫background reasoning——后台推理。

普通的voice agent遇到复杂请求会有两种典型表现：要么直接给一个浅层回答（你能感觉它在敷衍），要么沉默几秒做思考（你能感觉它在卡）。两种体验都不像跟人说话。

grok-voice-think-fast-1.0的做法是：在回应你的同时，后台并行做reasoning。表层先用低延迟的对话模型hold住流畅度——“嗯”、”对”、”我明白”、”让我看看”，这种自然的对话填充——背后另一个推理pass在解决你提的实际问题。等推理pass出结果，立刻接到主对话流里。

xAI官方说法：

“在背景中思考——处理复杂的查询和工作流，对响应延迟零影响。”

听起来像营销话术，但τ-voice Bench的电信场景本身就是测这个：用户说一长串账户号码、订阅信息、地址变更，模型不能停顿超过200毫秒。grok-voice-think-fast-1.0在这种场景73.7%的得分，是把这套机制跑通了的实证。

Starlink把客服全交给它了：一组真金白银的数字

理论benchmark没意思。让人坐不住的是Starlink的部署数据。

Starlink把这套voice agent接进了真实的销售和客服电话线。运营了一段时间，xAI公开了几个KPI：

销售转化率20%。 五个打进来咨询的人里，就有一个在通话当中直接掏钱开通Starlink服务。

这是什么概念？传统电销行业，一线销售经过专门培训和话术训练，平均call-to-sale转化率5-8%已经算优秀。20%在人类销售里属于顶尖业务员的水平，而且要持续保持非常难——人会累、会情绪化、会有bad day。

AI不会。

70%的客服请求实现完全自主解决，没有人类介入。

这条数据更扎心。意思是10个客户致电问题，7个agent自己搞定，挂电话之前问题已经处理完——账单查询、套餐变更、技术故障的初级排查、地址修改、停机重连，全部端到端走完，不transfer给人类。

剩下30%走升级流程交给人工，但走到这步之前voice agent已经把客户的问题、账户上下文、试过的解决方案打包好了——人类客服一接过来就能直接处理，不用再问”您的账号是？您之前试过什么？”

单个agent同时操作28个不同的内部工具。

这条最值得关注。所谓”agent”过去一年讲烂了，但真正能在生产环境串起几十个工具调用的不多。Starlink这套部署里，一个对话流可能涉及：账户系统、计费系统、设备状态查询、覆盖图、物流跟踪、退款流程、技术工单、上门服务调度、客户关系记录……一通电话5-10分钟，agent可能调了15次工具。

为什么是Starlink先用

不是巧合。

xAI和Starlink都在SpaceX体系内。Musk上个月刚把SpaceX和xAI合并打包申请IPO（1.75万亿美金估值，史上最大），这种”自家先用自家产品”的内部协同，比卖给Salesforce或微软速度快得多。Starlink敢把sales-critical的电话线接给一个新模型，因为出了问题Musk发条短信就能改。

这种内部闭环对模型训练也是金矿。Starlink每天的客服通话量是百万级，全部回流到xAI做RLHF训练数据。普通的voice AI公司想拿到这种规模的真实场景数据，要花几年签客户、做合规。xAI走捷径。

这件事改变了什么

第一，voice AI市场的领先位次重洗了。

过去voice agent这个赛道头部是OpenAI Realtime、Google Gemini Flash Live、ElevenLabs、Vapi、Bland这些。τ-voice Bench这次的差距不是1-2分，是断层。短期内Gemini和OpenAI得回去做能力补足。

第二，B2B采购方的决策权重变了。

之前企业选voice供应商主要看两点：延迟和声音质量。现在第三个维度变成”end-to-end能不能闭环”。Starlink的70%自主解决率把这个标准明确化了——能闭环的语音agent和不能闭环的，应该是两个价格段。

第三，B2C用户体验的天花板被抬高了。

20%销售转化、70%自主解决、操作28个工具、25种语言、零延迟thinking。一年前这套指标在voice AI圈是”理论上限”，现在变成”已经在生产里跑的实测”。所有用voice agent做客服的公司，现在都得重新想自己的baseline。

至于Anthropic和OpenAI接下来出什么牌，应该不用等太久。他们都有voice能力但都还没把”在SpaceX旗下子公司接管全部客服线”这种规模的部署案例摆出来。τ-voice Bench这条曲线，下次更新会很热闹。

参考来源：Grok Voice Think Fast 1.0（xAI官方公告）、xAI Launches grok-voice-think-fast-1.0: Topping τ-voice Bench at 67.3%（MarkTechPost）、xAI launches Grok Voice Think Fast 1.0 for voice agents（Testing Catalog）、xAI Unveils Grok Voice AI That Thinks In Real Time While Handling Customer Support At Scale（Metaverse Post）