微软从头训练 7 个大模型编程款甩开 Claude Haiku - News

50 亿参数的小模型，把 Anthropic 的 Claude Haiku 在编程基准上甩开了 16 分。

6 月 2 日 Build 2026 大会上，微软真正的硬货不是又一个 agent 平台，是苏莱曼那支”超级智能团队”一口气端出来的 7 个从头自己练的模型。从推理、写代码到图像、转写、语音，微软第一次有了一条完整的自家模型生产线。

最扎眼的是里面块头最小的那个。

先看这条小钢炮的成绩

MAI-Code-1-Flash，主打轻量、能干 agent 活的编程模型，专门塞进 VS Code 里的 GitHub Copilot。微软给的对照组是 Claude Haiku 4.5：

基准	MAI-Code-1-Flash	Claude Haiku 4.5
SWE-Bench Pro（解真实工程问题）	51.2%	35.2%
指令遵循 IF Bench	高 28.9 分	—
对抗推理基准	85.8%	—

SWE-Bench Pro 高出整整 16 分，干同样的活还能省下最多 60% 的 token。token 省下来，意味着更快、更便宜、来回交互更顺。一个小模型能做到这个，挺唬人。

微软给它贴的标签是一句话：

“由微软端到端自建，全程使用干净且授权合规的数据。”

这句不是凑数。“干净且授权合规的数据”是冲着行业那堆版权官司去的——等于先把”我们没拿来路不明的语料”这块免责声明钉在门口。

另外 6 个补齐了一整条线

光有编程模型不算完整。这次微软是按”全家桶”的思路铺的：

MAI-Thinking-1：头一个自家推理模型，350 亿活跃参数、12.8 万 token 上下文。微软自己说它能跟 Anthropic 的 Sonnet 4.6 掰手腕，编程跑分（SWE-Bench Pro）追平 Opus 4.6。已经在 AI Foundry 上开了私有预览。
MAI-Thinking-1 Flash：上面那个的提速瘦身版。
MAI-Image-2.5（含 Flash 版）：文生图、图生图，已经接进了 PowerPoint。
MAI-Transcribe-1.5：转写，撑 43 种语言。
MAI-Voice-2：语音，15 种以上语言，新增了一批音色。

推理、代码、图像、转写、语音——一条线下来，微软想自己端的活基本齐了。

为什么微软非要自己从头练

这事的分量，不在单个模型多能打，在”从头练”三个字。

过去微软的 AI 底座很大程度押在 OpenAI 身上。自己从零训出一整排能跟 Anthropic、OpenAI 同台比划的模型，等于第一次证明：离了别人，我也能把这条线撑起来。Copilot、VS Code、PowerPoint、Foundry 这些自家入口，以后可以优先喂自己的模型。

更微妙的是那个对照组的选法。微软没去碰最顶的 Opus、GPT-5.5，专挑了 Anthropic 的小模型 Haiku 来比——这是聪明的打法：在”小而快、企业最常批量调用”的那一档，先用”更便宜还更准”把对手比下去。企业买单看的就是单位成本，这一刀砍得很准。

结尾

跑分这东西，向来是发模型的自己挑着说，外面真上手用过才算数。MAI-Code-1-Flash 是不是真比 Haiku 强 16 分，等开发者在 Copilot 里压上几周才有答案。

但有一点已经清楚：微软不再满足于当个分发别人模型的渠道了。这 7 个模型摆出来，是想让所有人看见——它手里现在有自己的牌。

至于这条自家生产线能不能在真实工程里站住脚，6 个月后，开发者的账单和吐槽会给答案。

参考来源：Introducing MAI-Code-1-Flash（Microsoft AI）；CocoLoop、Microsoft debuts an expansion of its model families and agentic AI intelligence for developers（SiliconANGLE）；Microsoft unveils new AI models to lessen reliance on OpenAI and lower costs for developers（CNBC）