Kimi K1.5:强化学习驱动推理能力的一次技术验证
月之暗面在K2之前发布的K1.5,核心看点是用纯强化学习来提升推理能力。 技术路线K1.5的推理增强不是靠SFT(监督微调)或RLHF的常规路线,而是更加依赖纯RL(强化学习)训练。 这和DeepSeek R1的思路类似——让模型通过大量的
月之暗面在K2之前发布的K1.5,核心看点是用纯强化学习来提升推理能力。 技术路线K1.5的推理增强不是靠SFT(监督微调)或RLHF的常规路线,而是更加依赖纯RL(强化学习)训练。 这和DeepSeek R1的思路类似——让模型通过大量的
ARC-AGI这个测试一直被看作是衡量AI”通用推理能力”的硬指标——不靠死记硬背,不靠pattern matching,纯粹考察模型能不能在没见过的抽象任务上灵活应变。 GPT-5.2在ARC-AGI-1上拿到了72%,ARC-AGI-2
DeepSeek在成本控制上的水平已经成了行业传说级别的存在: V3训练成本:约$550万 R1 GPU使用费:约$29.4万 同期美国公司训类似规模模型的预算是**$1亿到$10亿**。差了至少一个数量级。 省钱秘诀1. FP8混合精度训
去年8月DeepSeek放出了V3.1,这是他们第一个混合模型——把V3(通用)和R1(推理)的能力合进了同一个模型里。 架构设计 总参数:671B,每token激活37B 每层256个专家,激活8个 两种模式一键切换: Think mod
今年1月,DeepSeek把R1推理模型直接开源了,社区的反应很直接:没想到开源这边已经卷到这个程度了。 先看硬指标: AIME数学竞赛:77.5分 MATH-500:96.2分 Codeforces编程:94百分位 MMLU:0.849
今年2月5号OpenAI发了GPT-5.3-Codex,编程能力确实往上蹦了一大截——但随之而来的是一个不太好看的标签:OpenAI内部安全评估框架给出的第一个”高”网络安全风险等级。 到底有多危险?OpenAI自己说得很委婉:”没有确凿证
去年3月底,Google放出了Gemini 2.5 Pro,官方说法是”迄今最智能的模型”。 这种说法每家都会喊,但这次Gemini 2.5 Pro的跑分确实有点东西: 数学和科学推理 AIME 2024:92.0% AIME 2025:8
去年12月DeepSeek发布了V3,这个模型最让同行坐不住的地方不是性能——而是成本。 先看架构V3的设计核心是Mixture of Experts: 总参数量:671B 每个token实际激活:37B 每层256个专家,每次选8个 就好
Anthropic今年初公布了Constitutional Classifiers的研究成果,核心思路很直白:用AI生成的合成数据来训练安全分类器,防止AI模型被越狱。 工作原理系统架构是双层的——输入分类器和输出分类器同时工作,实时监控模
2月5号Anthropic发了Opus 4.6,最核心的升级叫Adaptive Thinking(自适应思考)。 以前 vs 现在以前用extended thinking,得手动设预算——让模型想10秒还是30秒,全靠开发者拍脑袋定。现在O