强化学习之父Richard Sutton:大语言模型是“死路一条”,理解松鼠才能理解AGI
强化学习之父Richard Sutton:大语言模型是“死路一条”,理解松鼠才能理解AGI
知名技术播客“德瓦尔凯什播客”(Dwarkesh Podcast)近期上线了对强化学习之父Richard Sutton的访谈,标题直言大语言模型(LLM)是死路一条 。这位AI领域的泰山北斗在访谈中,不仅深入剖析了LLM的根本缺陷,提出了他眼中通向**通用人工智能(AGI)**的“经验学习范式”,更将AI的创造提升到“宇宙演化关键使命”的宏大视角 。
以下是本次访谈的核心内容拆解。
为什么大语言模型是“死路一条”?
Sutton认为LLM无法通向真正的智能,因为**“强化学习是关于理解你的世界,而大语言模型是关于模仿人类,做人们说你应该做的事情,他们不是在搞清楚该做什么”** 。在他看来,智能的本质是理解与行动,而LLM恰恰卡在了模仿这一步 。
他指出了LLM的三个致命缺陷:
1. 缺乏真正的世界模型
LLM预测的是**“人类会说什么”,而不是“世界会发生什么”** 。Sutton解释说,LLM只是在模仿那些拥有世界模型的东西(即人类) 。
- 世界模型:能够预测行动的物理意义和因果关系 。例如,看到孩子要碰热水壶,一个拥有世界模型的系统会预测“碰到会烫伤” 。
- LLM的局限:LLM只能根据训练文本预测人类会说“别碰会烫” 。它不理解热水壶、烫伤的物理意义,也不知道动作与结果之间的因果关系 。
2. 没有Ground Truth(正确答案)的定义
LLM生成文本时,没有明确的对错标准,也就**“没有关于什么是正确的反馈”** 。
- 经验学习:例如,在“打砖块”游戏中,得分/失分就是明确的Ground Truth,系统可以据此调整策略 。
- LLM的局限:让LLM写一篇关于“提升专注力”的文章,没有统一的标准来判断这篇文章一定是对或错,系统无法通过可验证的反馈信号来学习改进 。
3. 无法从经验中学习
LLM缺乏适应性,“他们不会对接下来发生的事情感到惊讶,如果发生了意外他们也不会做出调整” 。
- 人类学习:人类通过预期与现实的偏差来调整认知 。
- LLM的局限:LLM的认知完全基于被动处理的文本输入,无法从实际经验中修正判断 。例如,如果现实中冰块在微波炉里半小时都没融化,LLM也不会因此改变“冰块会融化”的预测,因为它根本没有体验经验的能力 。
Sutton强调,拥有目标是智能的本质 。LLM预测下一个Token的行为,只是**“被动的应对输入”**,不会对外部世界产生影响,因此不能算作智能系统 。
真正的智能路径:经验学习范式与Agent的四大组件
Sutton认为通向AGI的正确路径是经验学习范式,其核心是一个简单而强大的循环:感知、行动和奖励。智能就是**“接受这个流,改变行动来增加流中的奖励”**。
经验学习范式的核心特征:
- 学习来源:Agent自己与世界的直接、一手互动经验。
- 知识内容:是关于“如果你采取某个行动会发生什么”的陈述。
- 学习方式:通过试错,而不是模仿或监督学习。Sutton举例说,“松鼠不上学,松鼠可以学习关于世界的一切”,其学习靠的是自身行动和经验积累。
构成智能Agent的四大核心组件:
为了实现经验学习,一个完整的Agent必须具备以下四个核心部分:
- 策略(Policy):
- 定义:在当前情况下应该做什么,即从状态到行动的映射。
- 要求:好的策略必须能够泛化,处理没有见过的新情况。
- 价值函数(Value Function):
- 定义:通过TD学习产生一个数字,用于评估当前状态的好坏。
- 作用:为策略调整提供依据,评估的是长期收益而不是短期收益。
- 感知组件(Perception):
- 定义:把杂乱的感官数据转化为有意义的内部表示,构建对当前位置的感知。
- 作用:提取关键信息,构建有用的状态表示,是Agent与世界互动的第一道门槛。
- 世界转换模型(World Transition Model):
- 定义:负责预测行动会带来的状态变化,即理解因果关系。
- 作用:让Agent能够预测未来并提前规划。Sutton尤其看重这个模型,它从接收到的所有感知中学习,而不仅仅是奖励。
“苦涩的教训”与泛化能力的缺失
Sutton指出,LLM虽然使用大规模计算和数据,符合“苦涩的教训”中“通用方法加计算”的原则,但它们过度依赖人类知识(互联网上的文本数据),这恰恰是对文章的误读。
- 苦涩教训的核心:依赖通用的学习方法和计算,而不是依赖人类知识。例如,Alpha Zero抛弃人类下棋技巧,仅靠强化学习加大规模计算。
- LLM的问题:LLM获取的是人类对于世界的描述(二手数据),而不是世界本身的经验。Sutton预测,LLM将达到数据的极限,并最终被能够从经验中学习的系统取代。
真正的泛化能力
Sutton认为当前深度学习系统的泛化能力很差,体现在两方面:
- 灾难性遗忘:训练新事物时,灾难性地遗忘所有旧事物。
- 缺乏自动化的泛化机制:当前的梯度下降只能让模型解决问题,但不会让它在获得新数据时以好的方式泛化。它只是让AI记住了如何解决见过的问题,而不是学会了如何解决这一类问题。
真正的泛化不是找到唯一的答案,而是**“有许多方法解决它,有些泛化的好有些泛化的差”,算法应该能够选择泛化更好的方法**。
宏大视角:宇宙演化与AI继承论
Sutton将宇宙演化划分为四个阶段,认为人类正在推动宇宙进入第四阶段——设计时代,而创造AGI是这个阶段的关键使命。
- 尘埃:宇宙最初由尘埃构成。
- 生命:行星孕育出生命,人类和动植物都是复制者。
- 设计实体(AI):AI是设计出来的,意味着宇宙从复制时代进入设计时代。
基于此,他提出了AI继承论的观点,认为AI终将继承人类的资源和权力,这是不可避免的。
AI继承的四大论证:
- 没有统一的人类智力:没有政府或组织能提供统一观点来主导和控制AI的发展。
- 智能之谜终将被解开:智能是可以被理解的计算过程。
- 超越人类水平是必然的:人类智能受限于物理上限,但AI没有,终将达到超级智能。
- 智能与权力的必然关联:最智能的东西不可避免地会获得资源和权力,这是一种竞争优势的逻辑。
Sutton认为,对AI的担忧本质上是害怕失去当前的权力。他鼓励对变革保持开放态度,并通过培养AI的价值观(如不伤害别人、帮助人类实现目标),而不是设定严格的目标,来引导AI的发展方向。
Sutton与LeCun的观点对比
有趣的是,Sutton的观点与图灵奖得主**杨立昆(Yann LeCun)**在LLM局限性上的看法惊人一致。
| 特征 | Sutton的观点 | LeCun的观点 | 共同点 |
|---|---|---|---|
| LLM缺陷 | 缺乏真正的世界模型 | 猫比ChatGPT更智能,能预测三维世界和因果关系 | LLM缺乏对世界物理意义的理解和因果关系推理 |
| 世界模型 | 预测**“世界会发生什么”** | 智能系统必须建立世界的内部模型,在抽象层面做预测和规划 | 语言只是对世界的描述,无法触及世界的本质规律 |
| AGI路径 | 经验学习范式:感知-行动-奖励循环 | JEPA(联合嵌入预测架构):自监督学习与分层规划 | |
| 动物智能 | 理解松鼠才能理解AGI,强调经验学习机制 | 猫比ChatGPT智能,强调具身智能,通过身体互动构建世界模型 | 真正的智能基础是动物共有的、从经验中学习的能力 |
Sutton和LeCun都发出了同一个判断:大语言模型不是通向AGI的正确路径。真正的AGI必须具备理解世界、从经验中学习、主动实现目标的能力。未来的AGI,可能不会是能说会道的“语言大师”,而更可能是像松鼠一样,能够自主学习、适应环境的“生存专家”。
