微软一次端出 7 个自己从头练的大模型:50 亿参数的编程小钢炮,跑分把 Claude Haiku 甩开 16 分

50 亿参数的小模型,把 Anthropic 的 Claude Haiku 在编程基准上甩开了 16 分。

6 月 2 日 Build 2026 大会上,微软真正的硬货不是又一个 agent 平台,是苏莱曼那支”超级智能团队”一口气端出来的 7 个从头自己练的模型。从推理、写代码到图像、转写、语音,微软第一次有了一条完整的自家模型生产线。

最扎眼的是里面块头最小的那个。

先看这条小钢炮的成绩

MAI-Code-1-Flash,主打轻量、能干 agent 活的编程模型,专门塞进 VS Code 里的 GitHub Copilot。微软给的对照组是 Claude Haiku 4.5:

基准 MAI-Code-1-Flash Claude Haiku 4.5
SWE-Bench Pro(解真实工程问题) 51.2% 35.2%
指令遵循 IF Bench 高 28.9 分
对抗推理基准 85.8%

SWE-Bench Pro 高出整整 16 分,干同样的活还能省下最多 60% 的 token。token 省下来,意味着更快、更便宜、来回交互更顺。一个小模型能做到这个,挺唬人。

微软给它贴的标签是一句话:

“由微软端到端自建,全程使用干净且授权合规的数据。”

这句不是凑数。”干净且授权合规的数据”是冲着行业那堆版权官司去的——等于先把”我们没拿来路不明的语料”这块免责声明钉在门口。

另外 6 个补齐了一整条线

光有编程模型不算完整。这次微软是按”全家桶”的思路铺的:

  • MAI-Thinking-1:头一个自家推理模型,350 亿活跃参数12.8 万 token 上下文。微软自己说它能跟 Anthropic 的 Sonnet 4.6 掰手腕,编程跑分(SWE-Bench Pro)追平 Opus 4.6。已经在 AI Foundry 上开了私有预览。
  • MAI-Thinking-1 Flash:上面那个的提速瘦身版。
  • MAI-Image-2.5(含 Flash 版):文生图、图生图,已经接进了 PowerPoint。
  • MAI-Transcribe-1.5:转写,撑 43 种语言
  • MAI-Voice-2:语音,15 种以上语言,新增了一批音色。

推理、代码、图像、转写、语音——一条线下来,微软想自己端的活基本齐了。

为什么微软非要自己从头练

这事的分量,不在单个模型多能打,在”从头练”三个字。

过去微软的 AI 底座很大程度押在 OpenAI 身上。自己从零训出一整排能跟 Anthropic、OpenAI 同台比划的模型,等于第一次证明:离了别人,我也能把这条线撑起来。Copilot、VS Code、PowerPoint、Foundry 这些自家入口,以后可以优先喂自己的模型。

更微妙的是那个对照组的选法。微软没去碰最顶的 Opus、GPT-5.5,专挑了 Anthropic 的小模型 Haiku 来比——这是聪明的打法:在”小而快、企业最常批量调用”的那一档,先用”更便宜还更准”把对手比下去。企业买单看的就是单位成本,这一刀砍得很准。

结尾

跑分这东西,向来是发模型的自己挑着说,外面真上手用过才算数。MAI-Code-1-Flash 是不是真比 Haiku 强 16 分,等开发者在 Copilot 里压上几周才有答案。

但有一点已经清楚:微软不再满足于当个分发别人模型的渠道了。这 7 个模型摆出来,是想让所有人看见——它手里现在有自己的牌。

至于这条自家生产线能不能在真实工程里站住脚,6 个月后,开发者的账单和吐槽会给答案。

参考来源:Introducing MAI-Code-1-Flash(Microsoft AI);Microsoft debuts an expansion of its model families and agentic AI intelligence for developers(SiliconANGLE);Microsoft unveils new AI models to lessen reliance on OpenAI and lower costs for developers(CNBC)