阿里一个模型塞进文字音频视频,还能实时语音克隆:Qwen3.5-Omni来了
3月30日,阿里Qwen团队丢出了Qwen3.5-Omni,这是他们第一个真正意义上的全模态模型——文字、图片、音频、视频全部塞进同一个模型里处理,不是那种把几个专门模型拼在一起的拼接式架构。 一个模型,四种模态之前市面上的多模态系统大多是
共 3 篇文章
3月30日,阿里Qwen团队丢出了Qwen3.5-Omni,这是他们第一个真正意义上的全模态模型——文字、图片、音频、视频全部塞进同一个模型里处理,不是那种把几个专门模型拼在一起的拼接式架构。 一个模型,四种模态之前市面上的多模态系统大多是
今年2月17号,阿里在农历新年前夕放出了Qwen3.5——397B参数的开放权重模型,语言支持从82种直接拉到了201种。 主要升级原生多模态:文本、图片、视频在同一个模型里处理,不是外挂的adapter方案。这和Llama 4的early
今年1月27号,月之暗面发布了Kimi K2.5——在K2的基础上加了原生多模态和Agent Swarm功能。 Agent Swarm是什么核心概念:把一个复杂任务拆解成多个子任务,每个子任务分配给一个独立的agent并行执行。 举个例子—