阿里一个模型塞进文字音频视频，还能实时语音克隆：Qwen3.5-Omni来了 - News

3月30日，阿里Qwen团队丢出了Qwen3.5-Omni，这是他们第一个真正意义上的全模态模型——文字、图片、音频、视频全部塞进同一个模型里处理，不是那种把几个专门模型拼在一起的拼接式架构。

一个模型，四种模态

之前市面上的多模态系统大多是”分工合作”：视觉一个模型，听觉一个模型，最后再接一个文本模型统合输出。Qwen3.5-Omni不一样，用的是Thinker-Talker双架构加混合注意力MoE（30B总参数，每次激活3B），所有模态在同一套参数里跑。

这意味着模型能做以前做不到的事：

音视频联合理解：看完一段视频后同时结合里面的对话声音来作答，不是先转文字再看视频
实时语音克隆：上传一段声音样本，模型能复刻这个声线进行后续输出（目前通过API访问）
音视频Vibe Coding：对着屏幕录制讲解，Qwen3.5-Omni直接生成对应代码，不需要打字

规格一览

规格	数值
总参数量	30B MoE
每次激活参数	3B
上下文窗口	256K tokens
最大音频处理时长	10小时+
最大视频处理量	400秒 720p @1FPS
语音识别语言数	113种
语音输出语言数	36种

三个版本：Plus（旗舰复杂任务）、Flash（均衡速度和性能）、Light（轻量快速）。

跑分怎么样

在215个测试数据集和benchmark上拿到SOTA，其中音频部分直接超过Gemini 3.1 Pro：

MMAU音频综合理解：82.2 vs Gemini 3.1 Pro 的 81.1
音乐理解RUL-MuchoMusic：72.4 vs 59.6，差距拉开不少
多语言语音克隆稳定性：超过ElevenLabs、GPT-Audio和Minimax

实时对话延迟压到了234毫秒，用了ARIA技术（Adaptive Rate Interleave Alignment）动态调节语音节奏，让输出听起来更自然，而不是机械念稿。

另外通用能力也没有退步，MMMU视觉理解82.0%，HumanEval代码92.6%，LibriSpeech语音识别词错率1.7%，基本都在第一梯队。

语音AI格局在变

ElevenLabs一直是语音克隆领域的标杆，但Qwen3.5-Omni在多语言语音稳定性上超过了它。更重要的是，它把语音克隆做成了全能多模态模型的内置功能，而不是一个单独的垂直产品。

当然，语音克隆目前只开放API，还没有进产品界面，估计要等商业化节奏跟上再开放。

整个模型的训练数据用了超过一亿小时的音视频内容，这个量级才能撑起真正意义上的跨模态理解。

音视频Vibe Coding这个功能倒是个有意思的方向——以前Vibe Coding是用自然语言描述需求，现在是直接对着屏幕录个视频讲解，模型看视频写代码。这条路能走通的话，会是一种很不一样的编程交互方式。

参考来源：Qwen 3.5 Omni: Alibaba's AI Model Can Now Hear, Watch, and Clone Your Voice（Decrypt）；Qwen3.5-Omni: 10-Hour Audio, 4M Frame Video, SOTA in 215 Benchmarks（StableLearn）；Alibaba Qwen Team Releases Qwen3.5 Omni（MarkTechPost）