OpenAI一口气扔出三个语音模型:能边推理边说话,70种语言实时口译

5 月 7 日,OpenAI 一口气发了三个语音模型,把 Realtime API 那条产品线彻底重做了一遍。

先把名字摆出来:

  • GPT-Realtime-2 —— 能边推理边说话的对话模型
  • GPT-Realtime-Translate —— 70 种输入语言、13 种输出语言的实时口译
  • GPT-Realtime-Whisper —— 流式语音转文字

三个模型同时进 Realtime API 正式版,外加远程 MCP 服务器调用、图片输入、SIP 电话拨入三件套支持。

这次最值得说的,是 Realtime-2 那个”边想边说”

以前的语音 agent 有个老毛病——你说完,它得停下来想,想完再说。停顿三秒以上用户就觉得”这玩意儿是不是死了”。

Realtime-2 把这个流程重做了。它能:

  • 边推理边接话,不让对话停下来
  • 被打断不丢上下文,用户中途插话,agent 接得住
  • 并行调用工具,原来只能一次调一个,现在能并发
  • 上下文窗口翻到 128K,比上一代 32K 多了 4 倍
  • 推理强度可调,开发者能在”快”和”想得透”之间自己拨

OpenAI 自己的说法是:

“keeps the conversation moving while it reasons through a request, calls tools, handles corrections or interruptions”

讲人话:让 AI 接电话不再像在跟一个反应迟钝的客服讲话。

Zillow 是第一批拿到生产数据的

OpenAI 这次专门点了两个客户:Zillow 和 Deutsche Telekom。

Zillow(美国头部房产平台)用 Realtime-2 跑了一段时间真实电话流量,OpenAI 给的描述是”接电话成交率显著提升”以及”合规稳健性更好”——具体百分比没在官方文案里给出。但 OpenAI 在公开宣传里反复用了”call success rates jump”的措辞,行业媒体的解读是:这是第一次有大型房产平台把语音 agent 推到了主流呼叫流量上。

成交率涨这事是什么意思?语音 agent 这赛道之前的瓶颈一直是”听得懂但接不住下一轮”——客户问”那这个房源能不能下午三点看?我女儿放学得在四点之前结束”,老一代模型卡在多变量约束这里。Zillow 的测试说明,Realtime-2 把这一类卡点过了。

Deutsche Telekom(德国电信)在测 Realtime-Translate,打算给跨国客服用——客户说德语,客服说英语,中间不再需要人工翻译。

价格也改了

模型 价格
GPT-Realtime-2 $32 / 百万音频输入 token(缓存 $0.40),$64 / 百万输出 token
GPT-Realtime-Translate $0.034 / 分钟
GPT-Realtime-Whisper $0.017 / 分钟

Translate 和 Whisper 改成了按分钟计费,对客服、会议记录这种连续语音场景,开发者算账简单多了——不用再换算 token,1000 分钟就是 17 美元(Whisper)或 34 美元(Translate)。

Realtime-2 还是按 token,但 cached input 打到 $0.40——比正常输入便宜 80 倍。这个折扣是给那些”系统 prompt 巨大但每次对话都用同一段”的应用准备的,比如客服 agent。

这事的行业意义

把语音 agent 这条线放回去年年初,那时候做语音 AI 的玩家是这样的:

  • ElevenLabs 主打 TTS,声音好听但不会推理
  • Deepgram、Whisper 主打 STT,转得准但只是文字
  • GPT-4o 第一代有语音模式,但延迟和断点处理一塌糊涂

到现在这个时间点,OpenAI 把”听 + 想 + 说”三个能力压进了同一个推理流程——这是质变。原来做语音 agent 你得搭三层堆栈,现在一个 API 解决。

xAI 4 月份发的 Grok 语音 API(之前报道的那个”phone call 识别出错率 5%”)已经被 ElevenLabs 拉开 30 个百分点。OpenAI 现在这一手,等于直接把战场往前推了一个版本——不是比谁识别更准,而是比谁能让 AI 在电话里像真人一样接得上话

接下来该看的有两件事:

  1. ElevenLabs 怎么接招——它有 voice cloning 优势,但推理是 OpenAI 的强项
  2. Anthropic 的 Claude 语音何时入场——Anthropic 今年还没在语音 API 这条线上发过模型

至于客服外包公司、call center SaaS 这种用人海战术的玩家,今年的财报会变成什么样,看 Zillow 的早期数据就能猜个八九不离十。

参考来源:OpenAI has new voice models that reason, translate, and transcribe as you speak(9to5Mac);OpenAI's New Voice API Models(StartupHub.ai);Advancing voice intelligence with new models in the API(OpenAI 官方博客)