Google把语音AI的架构推倒重来：Gemini 3.1 Flash Live不是更快的TTS - News

3月26日，Google发布了Gemini 3.1 Flash Live。

如果你以为这只是一个更快、更便宜的语音合成API，那值得重新看一下。这个模型在技术架构上做了一个根本性的改变。

传统语音AI是怎么工作的

原来的AI语音交互，基本上是三段式流水线：

语音识别（ASR）：把你的音频转成文字
语言模型推理：文字输入LLM，生成文字回答
语音合成（TTS）：把文字再转成语音输出

每一步都有延迟，加起来就是那种说完等一会儿再回答的感觉。而且，每次转换都会丢失信息——你说话的语气、停顿、情绪，在文字这一步就没了。

Gemini 3.1 Flash Live做了什么

它把这三段流水线压缩成了一个**原生音频到音频（audio-to-audio）**的模型。

不经过文字这个中间状态，直接从你的声音输入，产生语音输出。

技术规格：

音频输入：16-bit PCM，16kHz采样率
音频输出：24kHz
连接方式：基于WebSocket的有状态长连接
支持70+语言

因为没有中间转换步骤，延迟显著降低，而且能捕捉到语调、语速这些文字里没有的信息。

具体能做什么

打断功能（Barge-in）：可以在AI说话过程中打断它，重新提问或者更改方向——传统TTS做不到这个，说完一句话你才能说下一句。

工具调用：可以调用函数和Google Search，意味着语音对话过程中模型可以实时查资料、执行操作。

双方转录：对话双方的内容都可以同时转录，方便记录和分析。

两种部署模式：服务端对服务端（适合客服机器人等后台系统），以及客户端对服务端（适合直接面向用户的语音应用）。

基准测试成绩

ComplexFuncBench Audio，这个测试专门测语音模型在复杂函数调用场景下的表现，Gemini 3.1 Flash Live拿了90.8%。

实际影响

语音AI目前最大的障碍之一，就是那种像在打电话还没接通时的停顿感。降低延迟+支持打断，是真正让语音交互接近自然对话的必要条件。

这个模型通过Gemini Live API在Google AI Studio向开发者开放，也已经集成进了Gemini Live（面向200多个国家的用户）。

Google在语音这条线上的布局，从Gemini 2.5 Flash Native Audio到现在的3.1 Flash Live，方向很一致：把语音当作一等公民来做，而不是往LLM上贴一层TTS包装。

参考来源：Gemini 3.1 Flash Live: Making audio AI more natural and reliable（Google Blog）；Google Releases Gemini 3.1 Flash Live: A Real-Time Multimodal Voice Model（MarkTechPost）；Gemini Live gets its biggest upgrade yet with Gemini 3.1 Flash Live（9to5Google）