GLM-5.1 SWE-Bench Pro登顶了,更值得说的是:全程华为昇腾,没用一块英伟达芯片
4月7日,Z.ai(原智谱AI)发布了GLM-5.1,754B参数,MoE架构,MIT协议开源。 跑分结果:SWE-Bench Pro 58.4%,全球第一。GPT-5.4是57.7%,Claude Opus 4.6是57.3%。 光这个数
共 10 篇文章
4月7日,Z.ai(原智谱AI)发布了GLM-5.1,754B参数,MoE架构,MIT协议开源。 跑分结果:SWE-Bench Pro 58.4%,全球第一。GPT-5.4是57.7%,Claude Opus 4.6是57.3%。 光这个数
如果你最近在用 ChatGPT Pro 里的 Codex,可能会注意到有个新选项叫 Codex-Spark,响应速度快得有点不像话。 这不是参数调优的结果,是底层硬件换了。 跑在什么芯片上GPT-5.3-Codex-Spark 运行在 Ce
4月16日,OpenAI 给 Codex 推了一次大更新。不是小修小补——是把 Codex 从「聊天写代码」改造成了一个可以在桌面后台默默操作一切的 agent。同一天,Anthropic 发布了 Opus 4.7。两家在4月16号同时发力
GitHub Octoverse 2025数据出了,有个变化值得单独说:TypeScript在2025年8月成了GitHub贡献者最多的编程语言,月活贡献者263.6万人,把一度统治的JavaScript甩在身后。 这是近十年最大的编程语言
Anthropic 在4月16日发布了 Claude Opus 4.7,这个版本在编程能力上的提升幅度出乎不少人的预料——生产代码修复任务直接做到了上代的3倍,SWE-bench Pro 从53.4%跳到64.3%。 三个最值得看的跑分先把
4月13日,月之暗面(Moonshot AI)向所有Kimi Code订阅用户全量推送了K2.6代码预览版。这个版本在闭测了大约一周之后正式铺开,时间点卡在GPT-5.4-Cyber和Anthropic Mythos刚发布后不到两周。 Mo
微软VS Code团队做了一件事:把坚持了十年的月度发版节奏改成了每周发版。 不是因为人变多了,是因为AI agent让整个团队的交付速度从根本上提高了。他们在3月份的博客里公开了具体数字——这大概是我见过最直接的AI编程效果证明之一。 数
四月初,Cursor悄悄推送了一个更新,但这次不是小版本迭代——Cursor 3.0把整个编辑器的底层逻辑改了一遍。 从产品层面看,这是Cursor有史以来变化最大的一次发布。从架构层面看,这次更新直接回答了一个问题:当AI已经能写代码,I
如果你现在还在为要不要买Claude Opus 4.6的API额度发愁,这篇文章可能会让你省一笔钱。 Anthropic在2月份发布了Claude Sonnet 4.6,价格和Sonnet 4.5完全一样——输入$3/百万toke
2月12日,Spotify联合CEO Gustav Söderström在财报电话会议上说了一句话: 我们最好的工程师,自从12月以来就没有写过一行代码了。 然后他补充:AI把公司的编码和部署速度大幅提升了,2025年全年公司发布了50多个