Mistral 开源 4B 语音模型，评测超 ElevenLabs - News

3月26日，Mistral发布了Voxtral TTS，它们的第一个语音模型。

4B参数，开放权重，人工评测自然度超过ElevenLabs Flash v2.5，API定价0.016美元/千字，可以直接跑在自己的服务器上——这是这个产品的核心卖点。

4B参数是怎么搭的

Voxtral TTS的架构由三个模块组成：

组件	参数量	功能
变换器解码器主干	3.4B	基于Ministral 3B，负责语言理解和文本处理
声学变换器	390M	flow-matching架构，处理音频特征生成
神经音频编解码器	300M	对称编解码设计，音频压缩和还原

延迟数据：给500字文本、10秒参考音频，首帧音频在70毫秒内出来。实时因子约9.7x，就是说生成1秒语音大约只需要0.1秒计算时间。

跟ElevenLabs比是什么水平

Mistral在发布公告里的说法：人工评测显示，Voxtral TTS的语音自然度超过ElevenLabs Flash v2.5，和ElevenLabs v3质量持平。

ElevenLabs是目前语音AI赛道的头部玩家，v3是他们的旗舰产品。“持平旗舰、超过次旗舰”这个定位，放在一个4B的开放权重模型身上，算是相当大胆的声明。

声音克隆这块，3秒参考音频就够用了。不是简单复制音色，能捕捉口音、语调起伏、停顿习惯，甚至”呃、嗯”这类语言习惯的节奏感。此外支持零样本跨语言迁移——同一套声音配置，切换语言朗读，口音理论上能保持一致。

支持语言

英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语、阿拉伯语，共9种。

中文不在列表里——对中国用户来说这是硬伤，现阶段可以直接跳过考虑这款。

开放程度要说清楚

这里有个细节值得注意：Voxtral TTS的权重协议是CC BY NC 4.0，不是Apache 2.0。

“NC”就是Non-Commercial——非商业用途可以自由下载、修改、分发，商业用途需要走API。如果做学术研究、个人项目、内容演示，直接去Hugging Face下载权重，没有额度限制。如果要集成进商业产品，用API：0.016美元/千字符。

竞品价格参考：ElevenLabs Flash v2.5大约是0.066美元/千字，Voxtral API大约是它的四分之一，价格优势挺明显。

谁会被这个产品影响

语音AI这两年格局变动不小。ElevenLabs之前几乎是默认选择，之后Deepgram、OpenAI、微软陆续补上TTS能力，字节的语音产品也在国内竞争。Mistral进来走的是”开放权重+低价API”的路线——和它做语言模型的策略一模一样。

语音agent、播客制作、语言学习、客服系统是TTS的主要落地场景。对于想控制成本、数据不想出境的企业，自部署选项确实有吸引力——哪怕你要商用，可以先用开放权重做测试，确认效果再切到API。

但重申一遍：中文不支持。这款产品现在的主要受众是欧洲、南亚或者多语言出海团队，国内直接用的场景不多。

参考来源：Mistral AI just released a text-to-speech model it says beats ElevenLabs（VentureBeat）；Mistral releases a new open source model for speech generation（TechCrunch）；CocoLoop、Speaking of Voxtral（Mistral AI 官方博客）