RL+LLM:剑桥博士详述智能升级的四层阶梯

   时间:2025-04-24 20:00 来源:ITBEAR作者:沈瑾瑜

在人工智能领域,2025年初见证了一个引人注目的转折:强化学习(RL)以其独特的价值重返大型语言模型(LLM)的后训练时代。Sutton和Barto荣获图灵奖,而David Silver在去年的强化学习大会(RLC)上预言的“强化学习终将超越大型语言模型带来的低谷”正迅速成为现实。

作为一名即将完成博士学业的学者,作者孙浩在回顾过去的研究和准备教学讲座时,深受David Silver思想的启发。在“强化学习终于普及”(Shunyu Yao语)的时代背景下,孙浩希望撰写一篇文章,以整理和总结自己的见解。近日,他阅读了Silver和Sutton合著的《经验时代》,结合自己的思考,撰写了本文,期待在新加坡的学术会议上与同行们进行深入的交流。

当前,RL与LLM的结合正取得显著成果,其成功的关键在于逆向强化学习(Inverse RL)和数据驱动的奖励模型。RL在棋类游戏、即时策略游戏以及系统性能优化方面展现出了卓越的能力,能够找到超越人类专家的策略,并持续优化。而LLM则在架构优化、算力提升和算法改进等加持下,不断逼近数据扩展定律的前沿,能够理解和生成用户满意的文字、图片和视频。

然而,数据总量的限制使得LLM面临瓶颈。尽管LLM具有小样本泛化能力、强大的指令跟随能力和自然语言模型的可解释性,但它们缺乏RL的创造力、持续进步和纠错能力。因此,RL与LLM的结合成为了研究热点。

RL能够赋予LLM不断提升的能力,特别是在由奖励定义的任务上。从LLM4RL的角度看,如果能用LLM实现超人类性能,那么通过自然语言作为媒介,可以更容易地将RL系统的创造力用于启发人类。而从RL4LLM的角度看,RL能够提升LLM在特定任务上的性能,与对齐和后训练等优化方向高度契合。

在数学领域,AlphaProof和Alpha Geometry2在国际数学奥林匹克竞赛中取得银牌,DeepSeek R1也在全球范围内产生了广泛影响。在通用聊天领域,RLHF的研究如火如荼,庞大的用户规模和偏好标注为OpenAI提供了不断建模用户偏好和改进用户体验的数据。这些都是RL与LLM结合的成功案例。

然而,将RL+LLM范式推广到更多场景仍面临挑战。当前的LLM对齐是一种数据驱动(人类经验驱动)的RL,逆向RL是最自然和简单的解决方案。LLM从人类生成的数据或反馈中学习,即Silver和Sutton所说的“以人类为中心的AI”。

孙浩参与的逆向RL与LLM的研究主要围绕如何从不同数据中构建更好的奖励模型。他认为,未来的优化方向应该超越简单的自然方案,探索更加复杂和高效的奖励模型。

人类的学习过程为RL+LLM的发展提供了启示。人类通过语言学习、与世界交互、习得书写和文字、在游戏和虚拟世界中学习,并在互联网上寻找有用信息,最终通过与社会交互不断提升能力。这恰好对应了LLM+RL发展的四个阶段:数据驱动、游戏、虚拟交互和物理交互。

目前,主流方法仍处于第一阶段:通过数据驱动的奖励模型和RL提升任务性能。在这一阶段,RL通过模仿学习和逆向强化学习从人类行为数据中学习。Post-train阶段则通过prompt优化和监督微调等方法调整基座模型生成回答的数据分布。

逆向RL通过数据建模奖励函数,将不完整的MDP问题转化为完整的MDP问题,从而能够调用RL工具解决。这种方法的优势在于能够收集更加规模化的数据、找到更具泛化能力的解决方案,并成为推理时间优化的基础。

孙浩强调,准确的评估是一切算法改进的根基。在RL中,一个靠谱的奖励模型是工具库能够发挥作用的前提。RL领域无数任务中的经验告诉我们,没有一种通用的最优算法,最重要的是理解任务特点并根据任务优化算法。

在第一层取得成功后,研究者开始探索突破数据瓶颈的方法。游戏因其定义良好的完整MDP特性成为了一个潜在方向。通过游戏中的尝试探索,LLM可以不断提升理解、推理、规划和指令跟随能力。然而,这一方向仍面临诸多挑战,如任务评估、避免作弊、最佳表示、能力泛化等问题。

第三层是虚拟世界中的“经验”。在这一阶段,Agent与虚拟世界中的内容进行交互,完成用户定义的任务。这种交互提供了真实的、一手的、on-policy的反馈信息。用户可以通过众包形式提供反馈,帮助Agent提升能力。Multi-Goal任务使得Agent能够从失败的经验中学习,提高学习效率。

然而,这一方向也面临诸多技术挑战,如持续学习能力、RL的可塑性消失问题、大规模Agent学习的工程和算力挑战以及Agent个性化等。

第四层是物理世界中的“经验”。能够与物理世界进行真实交互的机器人是未来发展的重要方向。然而,硬件成本和伦理问题是两大挑战。硬件成本随着技术进步不断降低,但风险和伦理问题仍需更多思考。例如,在智能驾驶场景中,人们需要权衡智能的“具身”带来的额外硬件成本、系统错误承担者以及人与机器的互信问题。

在人工智能通用智能(AGI)的前夜,人类需要伟大哲学家的指引来应对即将到来的挑战。特别是当Agent拥有无限探索能力和与物理世界交互的能力时,碳基文明的存亡也将面临实实在在的威胁。

孙浩认为,通过借鉴人类的学习过程,RL+LLM将不断迈向更高的层次,最终实现人工智能的通用智能。

 
 
更多>同类内容
全站最新
热门内容