GPT-5.2和ARC-AGI测试:通用推理能力到底走到哪一步了

 · 

ARC-AGI这个测试一直被看作是衡量AI”通用推理能力”的硬指标——不靠死记硬背,不靠pattern matching,纯粹考察模型能不能在没见过的抽象任务上灵活应变。

GPT-5.2在ARC-AGI-1上拿到了72%,ARC-AGI-2上18%

这组数字什么水平?

ARC-AGI-1的72%已经超过了绝大多数模型。但ARC-AGI-2才是真正的试金石——难度直接拉了好几个台阶。18%说明现在的LLM在面对全新的、未经训练的抽象推理任务时,能力还是很有限的。

做个类比:就像一个学生考试能拿高分,但面对从没见过的题型就慌了。这个gap正好揭示了当前AI”看起来很聪明”和”真正通用智能”之间的鸿沟。

OpenAI的策略变化

GPT-5.2比较明确的趋势是成本优化。与上一代相比,相同任务的调用成本下降了不少,同时推理能力又往上提了一截。

OpenAI显然在走两条路:

  1. 高端线:拼绝对能力上限
  2. 经济线:把已有能力做便宜

这个策略和DeepSeek用MoE压成本的路线形成了有趣的对照。一个从上往下降价,一个从下往上提能力,最终交汇的那个点可能就是行业均衡价格。

对于关注AGI进展的人来说,ARC-AGI-2的18%是一个比各种MMLU、HumanEval分数都更有信息量的数字——因为它直接测的是泛化能力,而不是记忆力。

参考来源:ARC Prize官方博客、OpenAI技术报告