3月30日,阿里Qwen团队丢出了Qwen3.5-Omni,这是他们第一个真正意义上的全模态模型——文字、图片、音频、视频全部塞进同一个模型里处理,不是那种把几个专门模型拼在一起的拼接式架构。
一个模型,四种模态
之前市面上的多模态系统大多是”分工合作”:视觉一个模型,听觉一个模型,最后再接一个文本模型统合输出。Qwen3.5-Omni不一样,用的是Thinker-Talker双架构加混合注意力MoE(30B总参数,每次激活3B),所有模态在同一套参数里跑。
这意味着模型能做以前做不到的事:
- 音视频联合理解:看完一段视频后同时结合里面的对话声音来作答,不是先转文字再看视频
- 实时语音克隆:上传一段声音样本,模型能复刻这个声线进行后续输出(目前通过API访问)
- 音视频Vibe Coding:对着屏幕录制讲解,Qwen3.5-Omni直接生成对应代码,不需要打字
规格一览
| 规格 | 数值 |
|---|---|
| 总参数量 | 30B MoE |
| 每次激活参数 | 3B |
| 上下文窗口 | 256K tokens |
| 最大音频处理时长 | 10小时+ |
| 最大视频处理量 | 400秒 720p @1FPS |
| 语音识别语言数 | 113种 |
| 语音输出语言数 | 36种 |
三个版本:Plus(旗舰复杂任务)、Flash(均衡速度和性能)、Light(轻量快速)。
跑分怎么样
在215个测试数据集和benchmark上拿到SOTA,其中音频部分直接超过Gemini 3.1 Pro:
- MMAU音频综合理解:82.2 vs Gemini 3.1 Pro 的 81.1
- 音乐理解RUL-MuchoMusic:72.4 vs 59.6,差距拉开不少
- 多语言语音克隆稳定性:超过ElevenLabs、GPT-Audio和Minimax
实时对话延迟压到了234毫秒,用了ARIA技术(Adaptive Rate Interleave Alignment)动态调节语音节奏,让输出听起来更自然,而不是机械念稿。
另外通用能力也没有退步,MMMU视觉理解82.0%,HumanEval代码92.6%,LibriSpeech语音识别词错率1.7%,基本都在第一梯队。
语音AI格局在变
ElevenLabs一直是语音克隆领域的标杆,但Qwen3.5-Omni在多语言语音稳定性上超过了它。更重要的是,它把语音克隆做成了全能多模态模型的内置功能,而不是一个单独的垂直产品。
当然,语音克隆目前只开放API,还没有进产品界面,估计要等商业化节奏跟上再开放。
整个模型的训练数据用了超过一亿小时的音视频内容,这个量级才能撑起真正意义上的跨模态理解。
音视频Vibe Coding这个功能倒是个有意思的方向——以前Vibe Coding是用自然语言描述需求,现在是直接对着屏幕录个视频讲解,模型看视频写代码。这条路能走通的话,会是一种很不一样的编程交互方式。
参考来源:Qwen 3.5 Omni: Alibaba's AI Model Can Now Hear, Watch, and Clone Your Voice(Decrypt);Qwen3.5-Omni: 10-Hour Audio, 4M Frame Video, SOTA in 215 Benchmarks(StableLearn);Alibaba Qwen Team Releases Qwen3.5 Omni(MarkTechPost)