GLM-4.7真正值得关注的不是跑分,而是生产环境稳定性
智谱的GLM-4.7发布时没有铺天盖地的benchmark战报,反而是主打生产环境的稳定性和一致性。 为什么稳定性这么重要?开发者在实际项目中遇到的最大痛点往往不是”模型不够聪明”,而是”模型表现不稳定”。同一个prompt跑十次,可能有七
智谱的GLM-4.7发布时没有铺天盖地的benchmark战报,反而是主打生产环境的稳定性和一致性。 为什么稳定性这么重要?开发者在实际项目中遇到的最大痛点往往不是”模型不够聪明”,而是”模型表现不稳定”。同一个prompt跑十次,可能有七
SWE-bench已经成了AI编程能力的”高考分数线”——每个新模型发布必报的数字。但这个benchmark到底在考什么?刷到80%以上就意味着AI真的能当程序员了吗? 测试方式SWE-bench用的是真实GitHub issue。从Dja
智谱AI的GLM-4.5做了一件很有信号意义的事——专门针对NVIDIA H20(中国特供版GPU)做了优化,8张卡就能跑全量模型。 为什么这件事值得说美国对华芯片出口管制之后,中国AI公司能买到的最好NVIDIA GPU就是H20——一个
上周发生了一件让很多Claude重度用户炸锅的事:Anthropic宣布从4月4日起,Claude Pro和Max订阅用户不能再用固定月费跑OpenClaw这类第三方Agent框架了——要继续用,得切换到按量计费。 这个消息出来的时候,我第
4月4日,Anthropic悄悄改了一个规则,但影响范围可不小:从即日起,Claude Code订阅用户如果要用OpenClaw这类第三方工具,必须单独付费,走按量计费模式,不再包含在原有订阅里。 换句话说,你买了Claude订阅,并不代表
2024年11月Anthropic发布MCP协议的时候,多数人的反应是”又一个公司推自家标准”。结果一年不到,OpenAI、Google、微软全部跟进采用,MCP成了AI领域的事实标准。 MCP解决了什么问题?以前每个AI模型要对接每个外部
3月9号微软在Frontier Transformation发布会上推出了Microsoft 365 Copilot的第三波更新,核心变化是从辅助工具正式转向自主Agent。 Copilot Cowork新版Copilot最大的变化不是更聪
今年3月5号,GitHub宣布Copilot的代码审查功能正式切换到了agent架构。 之前的问题旧版code review本质上就是逐行看diff,生成一些泛泛的评论。很多开发者吐槽它”像个实习生在看代码”——只看表面不懂上下文。 新版怎
Molili的定位是AI agent的低代码开发平台——让不太会写代码的人也能搭建自己的AI agent。 核心理念目前搭建一个AI agent的门槛还挺高的:你需要懂API调用、了解prompt工程、会配置工具链、能处理各种边界情况。Mo
MiniMax去年发布的01系列模型里有个技术亮点叫Lightning Attention,核心目的很直接——降低注意力机制的计算复杂度。 传统注意力机制的问题标准的Transformer注意力是O(n²)复杂度——输入长度翻倍,计算量翻四