GPT-5.2和ARC-AGI测试：通用推理能力到底走到哪一步了

ARC-AGI这个测试一直被看作是衡量AI”通用推理能力”的硬指标——不靠死记硬背，不靠pattern matching，纯粹考察模型能不能在没见过的抽象任务上灵活应变。

GPT-5.2在ARC-AGI-1上拿到了72%，ARC-AGI-2上18%。

这组数字什么水平？

ARC-AGI-1的72%已经超过了绝大多数模型。但ARC-AGI-2才是真正的试金石——难度直接拉了好几个台阶。18%说明现在的LLM在面对全新的、未经训练的抽象推理任务时，能力还是很有限的。

做个类比：就像一个学生考试能拿高分，但面对从没见过的题型就慌了。这个gap正好揭示了当前AI”看起来很聪明”和”真正通用智能”之间的鸿沟。

GPT-5.2比较明确的趋势是成本优化。与上一代相比，相同任务的调用成本下降了不少，同时推理能力又往上提了一截。

OpenAI显然在走两条路：

这个策略和DeepSeek用MoE压成本的路线形成了有趣的对照。一个从上往下降价，一个从下往上提能力，最终交汇的那个点可能就是行业均衡价格。

对于关注AGI进展的人来说，ARC-AGI-2的18%是一个比各种MMLU、HumanEval分数都更有信息量的数字——因为它直接测的是泛化能力，而不是记忆力。

参考来源：ARC Prize官方博客、OpenAI技术报告