DeepMind的AI解了6道研究级数学难题：专家说5道够发论文，这条线正在移动 - News

先说清楚这10道题是什么。

不是数学竞赛题，不是经典难题。是未发表的研究级数学问题，来自FirstProof挑战赛——参赛选手包括职业数学家和数学博士。这些题目的要求是：答案得对，还必须附带严格的数学证明，能经受同行评审。

Aletheia，DeepMind最新的数学AI，解出了其中6道。

5道被外部专家评为”稍作修改就可以直接发表”。这是什么概念？意味着这些解答的质量，已经到了真实学术论文的标准。

Aletheia是怎么工作的

Aletheia用的底层模型是Gemini 3 Deep Think，通过延长测试时计算来提升性能。但它不是单纯跑一个大模型，而是一个多agent框架：

这个架构的思路是：证明的验证比生成更容易。数学证明里，每一步推导要么对要么错——这是一个相对客观的判断，比生成内容要容易得多。所以让Verifier来把关，能在一定程度上减少”看起来对但实际有漏洞”的情况。

Aletheia做的一件事也值得注意：遇到确实做不出来的题，它会明确输出”找不到解答”或超时，而不是强行给一个错误的答案。”知道自己不知道”这个设计，在数学场景里比强行幻觉重要得多。

FirstProof挑战赛里，OpenAI也有内部模型参赛。

最初报告说OpenAI的模型也解出了6道。后来经过复核，第2题被发现有逻辑漏洞，降为5道。

Aletheia在相同条件下：6道，通过外部专家评审，5道评为可直接发表。

系统	解出数量	专家评审结果
Aletheia (DeepMind)	6	5道”可发表”
OpenAI内部模型	5（复核降级1道）	未详细披露

这个差距不大，但方向是清楚的：数学AI正在进入能和顶尖研究者对话的区间。

除了FirstProof，Aletheia在IMO-ProofBench（基于国际数学奥林匹克题目的证明基准）上跑出了**91.9%**的正确率。

做个参照：普通大学数学专业学生在IMO题上的通过率基本在20%以下；顶尖数学系PhD研究生能到40-60%；IMO银牌以上的选手才能稳定超过70%。

91.9%已经超过了绝大多数能参加IMO的人类选手。

坦白说，研究团队自己也没有吹得太满。论文里有一句话值得原文引用：

“即使有Verifier机制，Aletheia在错误率上仍然比人类专家更高。”

这是一个不常见的诚实：我们跑分很好，但离”替代数学家”还有距离。

几年前，大语言模型在数学上的表现是：做对简单题、做错难题、做不出证明。

现在的情况是：研究级难题能解出6成，其中大部分证明质量够发表。

这不是”比人好”，而是”开始进入和人类专家讨论问题的区间”。数学社区的反应比AI社区更微妙——有人觉得这是工具，有人开始认真想这意味着什么。

数学的有意思之处在于，它的正确性标准是客观的。你要么证明了，要么没证明。写代码的质量还可以辩论，但数学证明里的逻辑漏洞是可以被机器检测的。

所以数学，很可能是AI”真正懂了还是只是统计相关”这个问题最早被清楚回答的领域之一。

Aletheia这次的6/10，是这个回答历程里的一个节点。不是终点。

参考来源：DeepMind's Aletheia Solves 6 Out of 10 Unpublished Research-Level Math Problems（InfoQ，2026年4月19日）