Google把语音AI的架构推倒重来:Gemini 3.1 Flash Live不是更快的TTS

3月26日,Google发布了Gemini 3.1 Flash Live。

如果你以为这只是一个更快、更便宜的语音合成API,那值得重新看一下。这个模型在技术架构上做了一个根本性的改变。

传统语音AI是怎么工作的

原来的AI语音交互,基本上是三段式流水线:

  1. 语音识别(ASR):把你的音频转成文字
  2. 语言模型推理:文字输入LLM,生成文字回答
  3. 语音合成(TTS):把文字再转成语音输出

每一步都有延迟,加起来就是那种说完等一会儿再回答的感觉。而且,每次转换都会丢失信息——你说话的语气、停顿、情绪,在文字这一步就没了。

Gemini 3.1 Flash Live做了什么

它把这三段流水线压缩成了一个**原生音频到音频(audio-to-audio)**的模型。

不经过文字这个中间状态,直接从你的声音输入,产生语音输出。

技术规格:

  • 音频输入:16-bit PCM,16kHz采样率
  • 音频输出:24kHz
  • 连接方式:基于WebSocket的有状态长连接
  • 支持70+语言

因为没有中间转换步骤,延迟显著降低,而且能捕捉到语调、语速这些文字里没有的信息。

具体能做什么

打断功能(Barge-in):可以在AI说话过程中打断它,重新提问或者更改方向——传统TTS做不到这个,说完一句话你才能说下一句。

工具调用:可以调用函数和Google Search,意味着语音对话过程中模型可以实时查资料、执行操作。

双方转录:对话双方的内容都可以同时转录,方便记录和分析。

两种部署模式:服务端对服务端(适合客服机器人等后台系统),以及客户端对服务端(适合直接面向用户的语音应用)。

基准测试成绩

ComplexFuncBench Audio,这个测试专门测语音模型在复杂函数调用场景下的表现,Gemini 3.1 Flash Live拿了90.8%

实际影响

语音AI目前最大的障碍之一,就是那种像在打电话还没接通时的停顿感。降低延迟+支持打断,是真正让语音交互接近自然对话的必要条件。

这个模型通过Gemini Live API在Google AI Studio向开发者开放,也已经集成进了Gemini Live(面向200多个国家的用户)。

Google在语音这条线上的布局,从Gemini 2.5 Flash Native Audio到现在的3.1 Flash Live,方向很一致:把语音当作一等公民来做,而不是往LLM上贴一层TTS包装。

参考来源:Gemini 3.1 Flash Live: Making audio AI more natural and reliable(Google Blog);Google Releases Gemini 3.1 Flash Live: A Real-Time Multimodal Voice Model(MarkTechPost);Gemini Live gets its biggest upgrade yet with Gemini 3.1 Flash Live(9to5Google)