DeepMind的AI解了6道研究级数学难题:专家说5道够发论文,这条线正在移动

先说清楚这10道题是什么。

不是数学竞赛题,不是经典难题。是未发表的研究级数学问题,来自FirstProof挑战赛——参赛选手包括职业数学家和数学博士。这些题目的要求是:答案得对,还必须附带严格的数学证明,能经受同行评审。

Aletheia,DeepMind最新的数学AI,解出了其中6道

5道被外部专家评为”稍作修改就可以直接发表”。这是什么概念?意味着这些解答的质量,已经到了真实学术论文的标准。

Aletheia是怎么工作的

Aletheia用的底层模型是Gemini 3 Deep Think,通过延长测试时计算来提升性能。但它不是单纯跑一个大模型,而是一个多agent框架:

  • Generator:生成初始解答思路
  • Verifier:验证证明步骤是否有逻辑漏洞
  • Reviser:根据验证反馈修改证明
  • 整合了Google Search访问最新数学文献

这个架构的思路是:证明的验证比生成更容易。数学证明里,每一步推导要么对要么错——这是一个相对客观的判断,比生成内容要容易得多。所以让Verifier来把关,能在一定程度上减少”看起来对但实际有漏洞”的情况。

Aletheia做的一件事也值得注意:遇到确实做不出来的题,它会明确输出”找不到解答”或超时,而不是强行给一个错误的答案。”知道自己不知道”这个设计,在数学场景里比强行幻觉重要得多。

和OpenAI的比较

FirstProof挑战赛里,OpenAI也有内部模型参赛。

最初报告说OpenAI的模型也解出了6道。后来经过复核,第2题被发现有逻辑漏洞,降为5道

Aletheia在相同条件下:6道,通过外部专家评审,5道评为可直接发表。

系统 解出数量 专家评审结果
Aletheia (DeepMind) 6 5道”可发表”
OpenAI内部模型 5(复核降级1道) 未详细披露

这个差距不大,但方向是清楚的:数学AI正在进入能和顶尖研究者对话的区间。

IMO-ProofBench的91.9%

除了FirstProof,Aletheia在IMO-ProofBench(基于国际数学奥林匹克题目的证明基准)上跑出了**91.9%**的正确率。

做个参照:普通大学数学专业学生在IMO题上的通过率基本在20%以下;顶尖数学系PhD研究生能到40-60%;IMO银牌以上的选手才能稳定超过70%。

91.9%已经超过了绝大多数能参加IMO的人类选手。

坦白说,研究团队自己也没有吹得太满。论文里有一句话值得原文引用:

“即使有Verifier机制,Aletheia在错误率上仍然比人类专家更高。”

这是一个不常见的诚实:我们跑分很好,但离”替代数学家”还有距离。

这条线在向哪里移动

几年前,大语言模型在数学上的表现是:做对简单题、做错难题、做不出证明。

现在的情况是:研究级难题能解出6成,其中大部分证明质量够发表。

这不是”比人好”,而是”开始进入和人类专家讨论问题的区间”。数学社区的反应比AI社区更微妙——有人觉得这是工具,有人开始认真想这意味着什么。

数学的有意思之处在于,它的正确性标准是客观的。你要么证明了,要么没证明。写代码的质量还可以辩论,但数学证明里的逻辑漏洞是可以被机器检测的。

所以数学,很可能是AI”真正懂了还是只是统计相关”这个问题最早被清楚回答的领域之一。

Aletheia这次的6/10,是这个回答历程里的一个节点。不是终点。

参考来源:DeepMind's Aletheia Solves 6 Out of 10 Unpublished Research-Level Math Problems(InfoQ,2026年4月19日)