MiniMax M1推理模型:闷声干活的实力派
MiniMax在推理模型赛道上的存在感不算高,但M1的成绩单说明他们是认真在做事的。 M1的定位M1是MiniMax的推理模型系列,对标的是OpenAI的o系列和DeepSeek的R1。核心能力集中在数学推理、代码生成和逻辑分析。 在SWE
共 6 篇文章
MiniMax在推理模型赛道上的存在感不算高,但M1的成绩单说明他们是认真在做事的。 M1的定位M1是MiniMax的推理模型系列,对标的是OpenAI的o系列和DeepSeek的R1。核心能力集中在数学推理、代码生成和逻辑分析。 在SWE
“Thinking model”在2025年彻底成了主流概念。几乎每家头部AI公司都推出了自己的推理模型,核心卖点都一样:模型在回答之前先在内部”想一想”。 各家路线OpenAI o系列:最早把”思考”概念产品化的。o1到o3一路迭代,走的
ARC-AGI这个测试一直被看作是衡量AI”通用推理能力”的硬指标——不靠死记硬背,不靠pattern matching,纯粹考察模型能不能在没见过的抽象任务上灵活应变。 GPT-5.2在ARC-AGI-1上拿到了72%,ARC-AGI-2
今年1月,DeepSeek把R1推理模型直接开源了,社区的反应很直接:没想到开源这边已经卷到这个程度了。 先看硬指标: AIME数学竞赛:77.5分 MATH-500:96.2分 Codeforces编程:94百分位 MMLU:0.849
去年3月底,Google放出了Gemini 2.5 Pro,官方说法是”迄今最智能的模型”。 这种说法每家都会喊,但这次Gemini 2.5 Pro的跑分确实有点东西: 数学和科学推理 AIME 2024:92.0% AIME 2025:8
2月5号Anthropic发了Opus 4.6,最核心的升级叫Adaptive Thinking(自适应思考)。 以前 vs 现在以前用extended thinking,得手动设预算——让模型想10秒还是30秒,全靠开发者拍脑袋定。现在O