Grok新语音模型把Gemini甩开30个百分点:Starlink客服已经在用,五个咨询里有一个直接付钱开通

τ-voice Bench这个公开榜单,过去一年都是Gemini 3.1 Flash Live和GPT Realtime你来我往。4月25日xAI扔了个新模型上去,直接拿了67.3%

下一名Gemini 3.1 Flash Live:43.8%。

中间这23.5个百分点的差距,在LLM benchmark里不叫”领先”,叫”另一个量级”。

更值得说的不是跑分。是这模型已经在Starlink的客服系统里真在用了。

grok-voice-think-fast-1.0:先看几个数字

模型叫grok-voice-think-fast-1.0,官方定位是”full-duplex语音agent”。full-duplex的意思是——它不用等你说完才能回话,可以一边听一边说,像两个人正常对话。

τ-voice Bench各垂直领域的得分:

领域 grok-voice-think-fast-1.0 第二名
零售 62.3% 45.6%
航空 66.0% 64.0%
电信 73.7% 40.4%

电信这一栏拉开的差距最离谱。73.7%对40.4%,几乎翻倍。这不是参数堆出来的,是xAI在客服这种典型electronics/account场景下专门做了大量训练。

支持25+种语言,能在嘈杂环境、口音、被打断的情况下保持稳定。

它的”想”是怎么不卡顿的

最有意思的技术点叫background reasoning——后台推理。

普通的voice agent遇到复杂请求会有两种典型表现:要么直接给一个浅层回答(你能感觉它在敷衍),要么沉默几秒做思考(你能感觉它在卡)。两种体验都不像跟人说话。

grok-voice-think-fast-1.0的做法是:在回应你的同时,后台并行做reasoning。表层先用低延迟的对话模型hold住流畅度——“嗯”、”对”、”我明白”、”让我看看”,这种自然的对话填充——背后另一个推理pass在解决你提的实际问题。等推理pass出结果,立刻接到主对话流里。

xAI官方说法:

“在背景中思考——处理复杂的查询和工作流,对响应延迟零影响。”

听起来像营销话术,但τ-voice Bench的电信场景本身就是测这个:用户说一长串账户号码、订阅信息、地址变更,模型不能停顿超过200毫秒。grok-voice-think-fast-1.0在这种场景73.7%的得分,是把这套机制跑通了的实证。

Starlink把客服全交给它了:一组真金白银的数字

理论benchmark没意思。让人坐不住的是Starlink的部署数据。

Starlink把这套voice agent接进了真实的销售和客服电话线。运营了一段时间,xAI公开了几个KPI:

销售转化率20%。 五个打进来咨询的人里,就有一个在通话当中直接掏钱开通Starlink服务

这是什么概念?传统电销行业,一线销售经过专门培训和话术训练,平均call-to-sale转化率5-8%已经算优秀。20%在人类销售里属于顶尖业务员的水平,而且要持续保持非常难——人会累、会情绪化、会有bad day。

AI不会。

70%的客服请求实现完全自主解决,没有人类介入。

这条数据更扎心。意思是10个客户致电问题,7个agent自己搞定,挂电话之前问题已经处理完——账单查询、套餐变更、技术故障的初级排查、地址修改、停机重连,全部端到端走完,不transfer给人类

剩下30%走升级流程交给人工,但走到这步之前voice agent已经把客户的问题、账户上下文、试过的解决方案打包好了——人类客服一接过来就能直接处理,不用再问”您的账号是?您之前试过什么?”

单个agent同时操作28个不同的内部工具。

这条最值得关注。所谓”agent”过去一年讲烂了,但真正能在生产环境串起几十个工具调用的不多。Starlink这套部署里,一个对话流可能涉及:账户系统、计费系统、设备状态查询、覆盖图、物流跟踪、退款流程、技术工单、上门服务调度、客户关系记录……一通电话5-10分钟,agent可能调了15次工具。

为什么是Starlink先用

不是巧合。

xAI和Starlink都在SpaceX体系内。Musk上个月刚把SpaceX和xAI合并打包申请IPO(1.75万亿美金估值,史上最大),这种”自家先用自家产品”的内部协同,比卖给Salesforce或微软速度快得多。Starlink敢把sales-critical的电话线接给一个新模型,因为出了问题Musk发条短信就能改。

这种内部闭环对模型训练也是金矿。Starlink每天的客服通话量是百万级,全部回流到xAI做RLHF训练数据。普通的voice AI公司想拿到这种规模的真实场景数据,要花几年签客户、做合规。xAI走捷径。

这件事改变了什么

第一,voice AI市场的领先位次重洗了。

过去voice agent这个赛道头部是OpenAI Realtime、Google Gemini Flash Live、ElevenLabs、Vapi、Bland这些。τ-voice Bench这次的差距不是1-2分,是断层。短期内Gemini和OpenAI得回去做能力补足。

第二,B2B采购方的决策权重变了。

之前企业选voice供应商主要看两点:延迟和声音质量。现在第三个维度变成”end-to-end能不能闭环”。Starlink的70%自主解决率把这个标准明确化了——能闭环的语音agent和不能闭环的,应该是两个价格段。

第三,B2C用户体验的天花板被抬高了。

20%销售转化、70%自主解决、操作28个工具、25种语言、零延迟thinking。一年前这套指标在voice AI圈是”理论上限”,现在变成”已经在生产里跑的实测”。所有用voice agent做客服的公司,现在都得重新想自己的baseline。

至于Anthropic和OpenAI接下来出什么牌,应该不用等太久。他们都有voice能力但都还没把”在SpaceX旗下子公司接管全部客服线”这种规模的部署案例摆出来。τ-voice Bench这条曲线,下次更新会很热闹。

参考来源:Grok Voice Think Fast 1.0(xAI官方公告)、xAI Launches grok-voice-think-fast-1.0: Topping τ-voice Bench at 67.3%(MarkTechPost)、xAI launches Grok Voice Think Fast 1.0 for voice agents(Testing Catalog)、xAI Unveils Grok Voice AI That Thinks In Real Time While Handling Customer Support At Scale(Metaverse Post)