强化学习之父给大模型泼冷水:只会猜下一个词的 AI,做不出真正的科学

强化学习之父 Richard Sutton,最近给整个大模型行业泼了盆冷水。

他的话很冲:一个只会预测下一个词的 AI,永远做不出真正的科学。

6 月 1 日,这个观点被翻出来又火了一轮。说话的人分量不轻——Sutton 是 2024 年图灵奖得主,强化学习这套东西半本教科书是他写的,现在人在 Google DeepMind。正是这么一个人,站出来说如今最火的这条路走偏了。

他到底在质疑什么

Sutton 的矛头,对准的是 GPT 这类靠「猜下一个词」训练出来的生成式 AI。

他的理由就三条,但每条都戳在要害上:

  • 它分不清因果。大模型学的是相关性——A 和 B 总一起出现,它就记下来。但科学要的是因果:到底是 A 导致了 B,还是俩都只是巧合。这一步它迈不过去。
  • 它不能动手做实验。真正的科学是主动的:改一个变量,看结果怎么变,再改再看。大模型只能坐在那儿读,没法伸手去拨弄真实世界。
  • 它只会复述。说到底,它把人类写过的东西嚼碎了重新拼出来,拼得再像,也还是人类已经知道的那些。

Sutton 自己的原话是这么说的:

“Real science is not about predicting the next word. It is about understanding the cause-and-effect mechanisms that govern the world.”

讲人话——真正的科学不是猜下一个词,是搞懂这个世界背后那套因果。

“A system that only predicts what humans have already written cannot leap to a fundamentally new understanding of nature.”

一个只会预测人类已经写下来的东西的系统,跳不到对自然的全新理解上去。

天花板在哪

这背后还有个更扎心的判断,是他和 David Silver 之前一起聊过的:人类数据是有天花板的。

大模型今天这身本事,几乎全是喂人类生产的文字、图片喂出来的。问题是,高质量的人类数据总有用完的一天。而且有些东西,是人类自己都还没搞明白的——你拿人类的存量知识去训,再怎么训,也训不出人类还不知道的答案。

模仿能让 AI 变得很能干。但 Sutton 说,模仿出不了「创造」。

那条他认的路

那什么样的 AI 才可能做科学?

Sutton 给的答案是强化学习——让 AI 像做实验一样,自己在环境里动手:做个动作,拿到反馈,错了就调,对了就强化。这套循环,恰好就是科学方法本身的样子:假设、实验、修正,转着圈来。

他举的例子是 AlphaGo 和 AlphaProof。这俩之所以能下出人类没想过的棋、证出新的数学,关键就在于它们内部带着一个「评判」机制——能自己判断这步走得好不好,而不是去对照「人类会怎么走」。当年第 37 手那种让职业棋手集体懵掉的下法,生成式 AI 是想都想不出来的,因为它的天花板就是人类棋谱。

这盆冷水该怎么接

得说清楚,Sutton 不是在说大模型没用。

它当然有用,写代码、查资料、辅助科研,样样能搭把手。他咬的是一个更窄的点:原创性的科学发现。在这件事上,他认为光靠「读完人类写的所有东西再预测下一个词」,这条路有顶。

有意思的是,整个行业现在几乎是反着他在押注的。所有的钱都砸在把模型做得更大、把人类数据喂得更多上。而当年那篇《苦涩的教训》(The Bitter Lesson),正是 Sutton 自己写的——他说 AI 的历史一再证明,能靠算力规模化的通用方法,最后总会赢过人类手工塞进去的知识。

现在他像是在提醒:规模化没错,但你规模化的对象选错了——不该是堆人类数据,该是堆 AI 自己跑出来的经验。

谁对谁错,短期内吵不出结果。但下一个真正「全新」的科学发现,到底会出自一个读遍人类论文的大模型,还是一个自己在环境里摔打出来的 agent——这事本身,可能就是这场争论的判决书。

参考来源:Turing Award winner Richard Sutton says pure generative AI can't do real science(The Decoder);Richard Sutton says the AI industry has "lost its way" by ignoring core principles of intelligence(The Decoder)