Mistral开源4B语音模型,人工评测超过ElevenLabs:3秒克隆声音,每千字1毛6

3月26日,Mistral发布了Voxtral TTS,它们的第一个语音模型。

4B参数,开放权重,人工评测自然度超过ElevenLabs Flash v2.5,API定价0.016美元/千字,可以直接跑在自己的服务器上——这是这个产品的核心卖点。

4B参数是怎么搭的

Voxtral TTS的架构由三个模块组成:

组件 参数量 功能
变换器解码器主干 3.4B 基于Ministral 3B,负责语言理解和文本处理
声学变换器 390M flow-matching架构,处理音频特征生成
神经音频编解码器 300M 对称编解码设计,音频压缩和还原

延迟数据:给500字文本、10秒参考音频,首帧音频在70毫秒内出来。实时因子约9.7x,就是说生成1秒语音大约只需要0.1秒计算时间。

跟ElevenLabs比是什么水平

Mistral在发布公告里的说法:人工评测显示,Voxtral TTS的语音自然度超过ElevenLabs Flash v2.5,和ElevenLabs v3质量持平。

ElevenLabs是目前语音AI赛道的头部玩家,v3是他们的旗舰产品。”持平旗舰、超过次旗舰”这个定位,放在一个4B的开放权重模型身上,算是相当大胆的声明。

声音克隆这块,3秒参考音频就够用了。不是简单复制音色,能捕捉口音、语调起伏、停顿习惯,甚至”呃、嗯”这类语言习惯的节奏感。此外支持零样本跨语言迁移——同一套声音配置,切换语言朗读,口音理论上能保持一致。

支持语言

英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语、阿拉伯语,共9种。

中文不在列表里——对中国用户来说这是硬伤,现阶段可以直接跳过考虑这款。

开放程度要说清楚

这里有个细节值得注意:Voxtral TTS的权重协议是CC BY NC 4.0,不是Apache 2.0。

“NC”就是Non-Commercial——非商业用途可以自由下载、修改、分发,商业用途需要走API。如果做学术研究、个人项目、内容演示,直接去Hugging Face下载权重,没有额度限制。如果要集成进商业产品,用API:0.016美元/千字符。

竞品价格参考:ElevenLabs Flash v2.5大约是0.066美元/千字,Voxtral API大约是它的四分之一,价格优势挺明显。

谁会被这个产品影响

语音AI这两年格局变动不小。ElevenLabs之前几乎是默认选择,之后Deepgram、OpenAI、微软陆续补上TTS能力,字节的语音产品也在国内竞争。Mistral进来走的是”开放权重+低价API”的路线——和它做语言模型的策略一模一样。

语音agent、播客制作、语言学习、客服系统是TTS的主要落地场景。对于想控制成本、数据不想出境的企业,自部署选项确实有吸引力——哪怕你要商用,可以先用开放权重做测试,确认效果再切到API。

但重申一遍:中文不支持。这款产品现在的主要受众是欧洲、南亚或者多语言出海团队,国内直接用的场景不多。

参考来源:Mistral AI just released a text-to-speech model it says beats ElevenLabs(VentureBeat);Mistral releases a new open source model for speech generation(TechCrunch);Speaking of Voxtral(Mistral AI 官方博客)