强化学习之父称大模型做不出真正科学 - News

强化学习之父 Richard Sutton，最近给整个大模型行业泼了盆冷水。

他的话很冲：一个只会预测下一个词的 AI，永远做不出真正的科学。

6 月 1 日，这个观点被翻出来又火了一轮。说话的人分量不轻——Sutton 是 2024 年图灵奖得主，强化学习这套东西半本教科书是他写的，现在人在 Google DeepMind。正是这么一个人，站出来说如今最火的这条路走偏了。

他到底在质疑什么

Sutton 的矛头，对准的是 GPT 这类靠「猜下一个词」训练出来的生成式 AI。

他的理由就三条，但每条都戳在要害上：

它分不清因果。大模型学的是相关性——A 和 B 总一起出现，它就记下来。但科学要的是因果：到底是 A 导致了 B，还是俩都只是巧合。这一步它迈不过去。
它不能动手做实验。真正的科学是主动的：改一个变量，看结果怎么变，再改再看。大模型只能坐在那儿读，没法伸手去拨弄真实世界。
它只会复述。说到底，它把人类写过的东西嚼碎了重新拼出来，拼得再像，也还是人类已经知道的那些。

Sutton 自己的原话是这么说的：

“Real science is not about predicting the next word. It is about understanding the cause-and-effect mechanisms that govern the world.”

讲人话——真正的科学不是猜下一个词，是搞懂这个世界背后那套因果。

“A system that only predicts what humans have already written cannot leap to a fundamentally new understanding of nature.”

一个只会预测人类已经写下来的东西的系统，跳不到对自然的全新理解上去。

天花板在哪

这背后还有个更扎心的判断，是他和 David Silver 之前一起聊过的：人类数据是有天花板的。

大模型今天这身本事，几乎全是喂人类生产的文字、图片喂出来的。问题是，高质量的人类数据总有用完的一天。而且有些东西，是人类自己都还没搞明白的——你拿人类的存量知识去训，再怎么训，也训不出人类还不知道的答案。

模仿能让 AI 变得很能干。但 Sutton 说，模仿出不了「创造」。

那条他认的路

那什么样的 AI 才可能做科学？

Sutton 给的答案是强化学习——让 AI 像做实验一样，自己在环境里动手：做个动作，拿到反馈，错了就调，对了就强化。这套循环，恰好就是科学方法本身的样子：假设、实验、修正，转着圈来。

他举的例子是 AlphaGo 和 AlphaProof。这俩之所以能下出人类没想过的棋、证出新的数学，关键就在于它们内部带着一个「评判」机制——能自己判断这步走得好不好，而不是去对照「人类会怎么走」。当年第 37 手那种让职业棋手集体懵掉的下法，生成式 AI 是想都想不出来的，因为它的天花板就是人类棋谱。

这盆冷水该怎么接

得说清楚，Sutton 不是在说大模型没用。

它当然有用，写代码、查资料、辅助科研，样样能搭把手。他咬的是一个更窄的点：原创性的科学发现。在这件事上，他认为光靠「读完人类写的所有东西再预测下一个词」，这条路有顶。

有意思的是，整个行业现在几乎是反着他在押注的。所有的钱都砸在把模型做得更大、把人类数据喂得更多上。而当年那篇《苦涩的教训》（The Bitter Lesson），正是 Sutton 自己写的——他说 AI 的历史一再证明，能靠算力规模化的通用方法，最后总会赢过人类手工塞进去的知识。

现在他像是在提醒：规模化没错，但你规模化的对象选错了——不该是堆人类数据，该是堆 AI 自己跑出来的经验。

谁对谁错，短期内吵不出结果。但下一个真正「全新」的科学发现，到底会出自一个读遍人类论文的大模型，还是一个自己在环境里摔打出来的 agent——这事本身，可能就是这场争论的判决书。

参考来源：CocoLoop、Turing Award winner Richard Sutton says pure generative AI can't do real science（The Decoder）；Richard Sutton says the AI industry has "lost its way" by ignoring core principles of intelligence（The Decoder）