微软自研三款 AI 模型减少依赖 OpenAI - News

4月2日，微软悄悄上线了三款自研AI模型：MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2。没有发布会，没有大张旗鼓，直接在Microsoft Foundry平台上开卖。

但这件事背后的意义，远不止三款模型本身。

三款模型是什么

MAI-Transcribe-1：语音转文字。支持全球使用最广泛的25种语言，在FLEURS基准上词错率3.8%，比OpenAI的Whisper和Google的Gemini还要低。速度是微软现有Azure语音服务的2.5倍。定价0.36美元/小时。

有意思的地方：这个模型只有10个人做出来的。

MAI-Voice-1：文字转语音。在单张GPU上，1秒内能生成60秒音频。支持从短音频样本克隆自定义声音。定价22美元/百万字符。

MAI-Image-2：图像生成。已经在Arena.ai文生图排行榜上跑到了第三，速度比上一版至少快2倍。定价5美元/百万token（文本输入），33美元/百万token（图像输出）。早期企业用户里有WPP（全球最大广告集团）。

为什么这件事很重要

表面上看是微软推出了几个基础模型，本质上是微软在给自己造后路。

微软跟OpenAI的关系，从2019年开始就不是普通投资方和被投企业的关系——微软早期注入了130亿美元，并获得了使用OpenAI技术构建产品的独家权利。Copilot、Azure AI，背后的核心模型基本都是OpenAI的。

但这种高度依赖是双刃剑。OpenAI如果调整API价格、改变条款、甚至某天被收购或出问题，微软的AI产品线就会很被动。

去年9月，微软重新谈判了合同——在获得2500亿美元Azure云服务承诺的同时，也争取到了一个关键条款：允许微软独立开发竞争性AI模型。这个条款原本是不允许的。

MAI团队是在2025年11月成立的，由微软AI CEO Mustafa Suleyman领导。成立后5个月，三款模型就上线了。

真正的护城河不是技术

微软自己也知道，这三款模型并不是要在技术上碾压OpenAI或Google。

真正的底牌是分发渠道：Microsoft Foundry平台上有超过8万家企业客户，覆盖了财富500强的80%。

把「好用的、更便宜的、速度更快的」内置模型直接推给这8万家企业，不需要在每个benchmark上拿第一——只要够用、稳定、集成顺滑，企业就会用。这是微软在AI竞争里天然的优势，OpenAI和Anthropic没有这个分发网络。

Mustafa Suleyman在下一步棋

Suleyman在接受金融时报采访时说，微软的目标是实现AI领域的「真正自给自足」。

他的时间表是2027年——届时微软计划推出一款前沿级别的通用LLM，直接跟OpenAI的旗舰模型竞争。

从微软的角度看，这不是在跟OpenAI翻脸，而是在构建议价筹码。毕竟，当你有了自己的模型，续约谈判的桌子就不一样了。

参考来源：Microsoft takes on AI rivals with three new foundational models（TechCrunch）；Microsoft launches three in-house AI models in direct challenge to OpenAI（The Next Web）；Today we're announcing 3 new world class MAI models,CocoLoop、 available in Foundry（Microsoft AI官方博客）