微软自研三款AI模型,向OpenAI说:我有备用方案了

4月2日,微软悄悄上线了三款自研AI模型:MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2。没有发布会,没有大张旗鼓,直接在Microsoft Foundry平台上开卖。

但这件事背后的意义,远不止三款模型本身。

三款模型是什么

MAI-Transcribe-1:语音转文字。支持全球使用最广泛的25种语言,在FLEURS基准上词错率3.8%,比OpenAI的Whisper和Google的Gemini还要低。速度是微软现有Azure语音服务的2.5倍。定价0.36美元/小时。

有意思的地方:这个模型只有10个人做出来的。

MAI-Voice-1:文字转语音。在单张GPU上,1秒内能生成60秒音频。支持从短音频样本克隆自定义声音。定价22美元/百万字符。

MAI-Image-2:图像生成。已经在Arena.ai文生图排行榜上跑到了第三,速度比上一版至少快2倍。定价5美元/百万token(文本输入),33美元/百万token(图像输出)。早期企业用户里有WPP(全球最大广告集团)。

为什么这件事很重要

表面上看是微软推出了几个基础模型,本质上是微软在给自己造后路

微软跟OpenAI的关系,从2019年开始就不是普通投资方和被投企业的关系——微软早期注入了130亿美元,并获得了使用OpenAI技术构建产品的独家权利。Copilot、Azure AI,背后的核心模型基本都是OpenAI的。

但这种高度依赖是双刃剑。OpenAI如果调整API价格、改变条款、甚至某天被收购或出问题,微软的AI产品线就会很被动。

去年9月,微软重新谈判了合同——在获得2500亿美元Azure云服务承诺的同时,也争取到了一个关键条款:允许微软独立开发竞争性AI模型。这个条款原本是不允许的。

MAI团队是在2025年11月成立的,由微软AI CEO Mustafa Suleyman领导。成立后5个月,三款模型就上线了。

真正的护城河不是技术

微软自己也知道,这三款模型并不是要在技术上碾压OpenAI或Google。

真正的底牌是分发渠道:Microsoft Foundry平台上有超过8万家企业客户,覆盖了财富500强的80%。

把「好用的、更便宜的、速度更快的」内置模型直接推给这8万家企业,不需要在每个benchmark上拿第一——只要够用、稳定、集成顺滑,企业就会用。这是微软在AI竞争里天然的优势,OpenAI和Anthropic没有这个分发网络。

Mustafa Suleyman在下一步棋

Suleyman在接受金融时报采访时说,微软的目标是实现AI领域的「真正自给自足」。

他的时间表是2027年——届时微软计划推出一款前沿级别的通用LLM,直接跟OpenAI的旗舰模型竞争。

从微软的角度看,这不是在跟OpenAI翻脸,而是在构建议价筹码。毕竟,当你有了自己的模型,续约谈判的桌子就不一样了。


参考来源:Microsoft takes on AI rivals with three new foundational models(TechCrunch);Microsoft launches three in-house AI models in direct challenge to OpenAI(The Next Web);Today we're announcing 3 new world class MAI models, available in Foundry(Microsoft AI官方博客)