50 亿参数的小模型,把 Anthropic 的 Claude Haiku 在编程基准上甩开了 16 分。
6 月 2 日 Build 2026 大会上,微软真正的硬货不是又一个 agent 平台,是苏莱曼那支”超级智能团队”一口气端出来的 7 个从头自己练的模型。从推理、写代码到图像、转写、语音,微软第一次有了一条完整的自家模型生产线。
最扎眼的是里面块头最小的那个。
先看这条小钢炮的成绩
MAI-Code-1-Flash,主打轻量、能干 agent 活的编程模型,专门塞进 VS Code 里的 GitHub Copilot。微软给的对照组是 Claude Haiku 4.5:
| 基准 | MAI-Code-1-Flash | Claude Haiku 4.5 |
|---|---|---|
| SWE-Bench Pro(解真实工程问题) | 51.2% | 35.2% |
| 指令遵循 IF Bench | 高 28.9 分 | — |
| 对抗推理基准 | 85.8% | — |
SWE-Bench Pro 高出整整 16 分,干同样的活还能省下最多 60% 的 token。token 省下来,意味着更快、更便宜、来回交互更顺。一个小模型能做到这个,挺唬人。
微软给它贴的标签是一句话:
“由微软端到端自建,全程使用干净且授权合规的数据。”
这句不是凑数。”干净且授权合规的数据”是冲着行业那堆版权官司去的——等于先把”我们没拿来路不明的语料”这块免责声明钉在门口。
另外 6 个补齐了一整条线
光有编程模型不算完整。这次微软是按”全家桶”的思路铺的:
- MAI-Thinking-1:头一个自家推理模型,350 亿活跃参数、12.8 万 token 上下文。微软自己说它能跟 Anthropic 的 Sonnet 4.6 掰手腕,编程跑分(SWE-Bench Pro)追平 Opus 4.6。已经在 AI Foundry 上开了私有预览。
- MAI-Thinking-1 Flash:上面那个的提速瘦身版。
- MAI-Image-2.5(含 Flash 版):文生图、图生图,已经接进了 PowerPoint。
- MAI-Transcribe-1.5:转写,撑 43 种语言。
- MAI-Voice-2:语音,15 种以上语言,新增了一批音色。
推理、代码、图像、转写、语音——一条线下来,微软想自己端的活基本齐了。
为什么微软非要自己从头练
这事的分量,不在单个模型多能打,在”从头练”三个字。
过去微软的 AI 底座很大程度押在 OpenAI 身上。自己从零训出一整排能跟 Anthropic、OpenAI 同台比划的模型,等于第一次证明:离了别人,我也能把这条线撑起来。Copilot、VS Code、PowerPoint、Foundry 这些自家入口,以后可以优先喂自己的模型。
更微妙的是那个对照组的选法。微软没去碰最顶的 Opus、GPT-5.5,专挑了 Anthropic 的小模型 Haiku 来比——这是聪明的打法:在”小而快、企业最常批量调用”的那一档,先用”更便宜还更准”把对手比下去。企业买单看的就是单位成本,这一刀砍得很准。
结尾
跑分这东西,向来是发模型的自己挑着说,外面真上手用过才算数。MAI-Code-1-Flash 是不是真比 Haiku 强 16 分,等开发者在 Copilot 里压上几周才有答案。
但有一点已经清楚:微软不再满足于当个分发别人模型的渠道了。这 7 个模型摆出来,是想让所有人看见——它手里现在有自己的牌。
至于这条自家生产线能不能在真实工程里站住脚,6 个月后,开发者的账单和吐槽会给答案。
参考来源:Introducing MAI-Code-1-Flash(Microsoft AI);Microsoft debuts an expansion of its model families and agentic AI intelligence for developers(SiliconANGLE);Microsoft unveils new AI models to lessen reliance on OpenAI and lower costs for developers(CNBC)