Cursor 自家编程模型 Composer 2.5 出来了:单任务成本 $1,比 GPT-5.5 便宜十倍

5 月 18 日,Cursor 把 Composer 2.5 扔了出来。这是它的第三代自家编程模型,也是第一次在公开 benchmark 上跟 Opus 4.7、GPT-5.5 站到同一档位——而单次任务的成本,只到对手的十分之一。

数字摆这儿

先看跑分。CursorBench v3.1 默认设置下,Composer 2.5 拿了 63.2%,GPT-5.5 是 59.2%;SWE-Bench Multilingual 上,Composer 2.5 拿 79.8%,反超 GPT-5.5 的 77.8%

但 Terminal-Bench 2.0 上 GPT-5.5 还是赢一头,82.7% 对 69.3%——这块 Cursor 自己也没硬说赢,写在了博客里。这种愿意把不利数据放出来的做法,在国内大模型厂商的发布会里不太常见。

价钱才是这次的真正卖点:

变体 输入价(每 1M token) 输出价(每 1M token)
标准 Composer 2.5 $0.50 $2.50
快速变体(默认) $3.00 $15.00

Cursor 官方原话:

“Composer 2.5 is exceptionally intelligent and up to 10x more efficient than similarly capable models.”

讲人话就是——同样的活干完,单次任务成本不到 1 美元,对手收到 11 美元。这个差距足够让企业 CTO 重新算一遍预算。

底子还是 Kimi K2.5

技术上其实没什么神秘。Composer 2.5 跟上一代 Composer 2 用的是同一个底座:Moonshot 开源的 Kimi K2.5 checkpoint——一个总参数 1 万亿、每次推理激活约 320 亿的 MoE 模型。

Cursor 没去自己练大模型,而是把工程力气全花在了 RL 调教上。这次拉开差距的训练改进有三块:

  • 文本反馈 RL:失败的工具调用现场就给提示,不再只在跑完一整段后给总奖励。模型修错的速度因此快了
  • 合成任务量 ×25:包括”特征删除”这种倒着做的题——故意删掉一段功能,让模型试着复原
  • MoE 基础设施:分片 Muon 优化器、双 mesh HSDP,把训练效率拉起来

整个训练里,85% 的算力预算用在了 RL 和后训练上,不是用在练底座上。这是开源大模型路线里很典型的玩法——底座别人练好开源出来,自己只需要把后训练做透。

下一步押在 xAI 身上

更有意思的是 Cursor 在发布博客里顺手丢的另一颗炸弹:下一代模型已经在练了,从零开始训,不再用 Kimi 当底座。

合作方是 SpaceXAI(xAI 的算力分支),用的是 Colossus 2 集群——大约 100 万张 H100 等价 GPU,总算力比 Composer 2.5 用的多 10 倍。

这条线之前就有传闻,4 月已经传出 SpaceX 拿了一张 60 亿美金买 Cursor 的期权。现在算力这一头落实了,说明 Musk 和 Cursor 把”AI 编程”这局押得不浅。

这事真正的信号

读完发布博客,最值得圈出来的不是分数也不是价钱,是 Cursor 这次的姿态变化。

过去两年里,Cursor 一直被外界归类为”套壳”——做 IDE 的好看皮肤,模型用 Claude 用 GPT。Composer 系列出来后,这个标签开始撕不下来了:先是 Composer 2 替企业用户挡掉了大半 Claude 调用,现在 Composer 2.5 公开跟 Opus 4.7 同台跑分,价钱还便宜一个数量级。

更关键的是,编程这个垂直场景里,单价从十几美元砍到 1 美元以下,意味着 agentic 编程从”试试看”进入”可以让 AI 跑一整天”的预算门槛。一家公司原来一天只敢让 AI 跑十几个 task,现在能跑上百个。这才是真正改变工作流的地方。

至于”自家模型在 Terminal-Bench 上还差着一截”——Cursor 大概率会用下一代 SpaceX 那台 Colossus 2 把这个洞补上。等下一次发布,套壳这顶帽子怕是要彻底脱手了。

参考来源:Cursor's Composer 2.5 matches Opus 4.7 and GPT-5.5 benchmarks at a fraction of the cost(The Decoder)、Cursor released Composer 2.5 with up to 10x cost efficiency(Testing Catalog)、Cursor Releases Composer 2.5, Matches Opus 4.7 On Some Benchmarks(OfficeChai)