图文详情

强化学习（Reinforcement Learning，RL）是一种机器学习方法，强化学习的基础框架是马尔可夫决策过程，它允许智能体（Agent）能够在与环境（Environment）的交互中通过试错来学习最优策略。智能体在环境中执行行动（Action），并根据行动的结果接收反馈，即奖励（Reward）。这些奖励信号指导智能体调整其策略，以最大化长期累积奖励¹。

强化学习的核心是价值函数（Value Function），它估计了从给定状态出发并遵循特定策略所能获得的期望累积奖励。通过不断更新价值函数，智能体学会区分哪些状态和行动更有可能导致高奖励，从而做出更好的决策¹。

近年来，强化学习在多个领域取得了显著进展，尤其是在游戏、机器人、推荐系统和自然语言处理等领域。例如，AlphaGo利用深度学习和强化学习技术在围棋游戏中战胜了世界冠军，展示了强化学习在解决复杂问题上的巨大潜力。

总的来说，强化学习是一种强大的学习范式，它通过智能体与环境的交互来学习最优策略，已经在多个领域展现出广泛的应用前景。随着研究的深入和技术的发展，强化学习有望解决更多复杂的问题，并在人工智能领域发挥更大的作用。

定义

强化学习（Reinforcement Learning，简称RL）是机器学习的一个重要分支，它研究的是智能体如何采取行动以适应环境，从而最大化某种累积奖励。智能体没有被告知要采取哪些行动，而是必须通过尝试来发现哪些行动能产生最多的奖励。最具挑战性的是，本次行动不仅影响本次的奖励，还可能影响下一个状态，进而影响所有后续的奖励。这两个特点（试错搜索和延迟奖励）是强化学习的两个最重要的特征。

发展历史

技术起源

试错学习：根据美国心理学家R. S. 伍德沃斯（R. S. Woodworth）的说法，试错学习的概念可以追溯到19世纪50年代，亚历山大·贝恩（Alexander Bain）讨论了通过“摸索和实验”来学习。更明确地提出则是英国动物学家和心理学家康威·劳埃德·摩根（Conway Lloyd Morgan）在1894年使用这个术语来描述他对动物行为的观察。1911年，Edward Thorndike第一个简要表达试错学习方法本质是学习的原理之一，他称之为“效果定律”（Law of Effect），这是试错学习的核心，也是后续强化学习行为描述的基础原则。
最优控制理论：“最优控制”这个术语在20世纪50年代末开始使用，用来描述设计一个控制器以最小化或最大化动态系统行为随时间变化的度量问题。解决这个问题的方法之一是在20世纪50年代中期由理查德·贝尔曼（Richard Bellman）等人通过扩展19世纪哈密顿（Hamilton）和雅可比（Jacobi）的理论发展起来的。这种方法使用动态系统的“状态”概念和“价值函数”或“最优回报函数”来定义一个函数方程，现在通常被称为贝尔曼方程。通过解这个方程来解决最优控制问题的方法类别被称为动态规划（Bellman, 1957a）。贝尔曼（1957b）还引入了最优控制问题的离散随机版本，即马尔可夫决策过程（MDPs）。罗纳德·霍华德（Ronald Howard）在1960年为MDPs设计了策略迭代方法。所有这些都是现代强化学习理论和算法的基础要素。

发展历程

早期探索：许多精巧的机电机器的建造都体现了试错学习的思想。最早的可能是托马斯·罗斯（Thomas Ross）在1933年建造的一台机器，它能够通过开关的设置找到通过一个简单迷宫的路径并记住这条路线。1951年，格雷·沃尔特（W. Grey Walter）建造了一个版本的“机械龟”（Walter, 1950），它能够进行一种简单的学习。1952年，克劳德·香农（Claude Shannon）展示了一个名为Theseus的迷宫跑动老鼠，它使用试错法找到通过迷宫的路径。

计算方法的发展：马文·明斯基（Marvin Minsky，1954）在他的博士论文中，讨论了强化学习的计算模型，并描述了他构建的一台由他称之为SNARCs（Stochastic Neural-Analog Reinforcement Calculators，随机神经类比强化计算器）的组件组成的模拟机器，旨在模仿大脑中可修改的突触连接。

强化学习的衰退与复兴：在20世纪60年代和70年代，由于当时很多学者对不同学习类型之间的关系难以区分，真正的试错学习变得很稀少。但在1963年，一位名叫John Andreae的新西兰研究人员，开发了这一种名为STeLLA的系统，该系统可以在与环境互动的过程中进行试错学习，起到了先驱性的研究作用。

重大节点

时间差分学习（Temporal Difference，TD）：Sutton 和 Barto 基于动物学习理论中“由时间上连续的预测变化所驱动的学习规则”开发了一个基于时间差分学习的经典调节心理模型。之后开发了一种使用时间差分学习和试错学习相结合的方法，称为演员-评论家架构（actor–critic architecture），并将这种方法应用于Michie和Chambers的杆平衡问题（pole-balancing problem）。

Q-Learning：时序差分和最优控制线索在1989年由克里斯·沃特金斯（Chris Watkins）开发Q-learning时被完全整合在一起。Chris Watkins在他的博士论文中引入了Q-Learning算法，这是一种无模型的强化学习算法，可以直接学习最优控制。

深度强化学习：随着卷积神经网络在计算机视觉领域的快速实现，深度强化学习的兴趣也逐渐增加，Volodymyr Mnih等人在2013年发表的论文中介绍了深度Q网络（Deep Q-Network, DQN），这是一个具有开创性的方法，它将深度学习用于强化学习问题。

阶段性成果

DQN在游戏上的表现：DQN算法最初在7个Atari 2600游戏上进行了测试，表现出了超人的表现，后续的研究将DQN应用于更多的Atari游戏，扩展到了49个，进一步证明了DQN的有效性。

AlphaGo：由DeepMind开发，AlphaGo是第一个击败人类围棋世界冠军的人工智能程序。它结合了深度学习和强化学习技术，通过自我对弈学习围棋策略。AlphaGo在2016年击败了世界围棋冠军李世石，这一成就标志着强化学习在复杂策略游戏中的突破性进展。

RLHF与ChatGPT：RLHF是一种利用人类反馈来指导和优化强化学习模型的技术。在这种框架下，人类评估者提供关于模型行为的反馈。这些反馈用来训练奖励模型，模型随后基于奖励模型提供的奖励信号进行强化学习，使得模型行为更符合人类的偏好和目标。RLHF在训练大型语言模型，如ChatGPT中发挥了重要作用，通过人类反馈强化学习来优化模型的对话能力。ChatGPT的出现，意味着人工智能达到了一个新的高度。

基本原理

主要技术

强化学习的基础框架是马尔可夫决策过程，包括以下几个关键点。

智能体（Agent）：智能体是强化学习中的主体，它能够感知环境的状态并在此基础上作出决策。智能体的目标是学习一个策略，以最大化其从环境中获得的累积奖励。在强化学习的过程中，智能体通过与环境的交互来学习如何行动。

环境（Environment）：环境是智能体进行决策的外部世界。它定义了智能体可以采取的行动、观察到的状态以及可能获得的奖励。环境对智能体的行动作出响应，并提供反馈，这种反馈通常是通过改变其状态或提供奖励的形式体现的。

状态（State）：状态是对环境在某一时刻的具体情况的描述。在强化学习中，状态通常用来表示智能体需要处理的信息，以做出决策。状态可以是简单的（如一个数字）或复杂的（如一个图像）。智能体根据当前状态来选择行动。

行动（Action）：行动是智能体在给定状态下可以执行的行为。行动的选择会影响环境的下一个状态和智能体可能获得的奖励。智能体的目标是学习一个策略，以选择能够最大化累积奖励的行动。

奖励（Reward）：奖励是环境对智能体行动的反馈，它是一个数值，用来量化行动的好坏。奖励可以是正的（鼓励某行为）或负的（惩罚某行为）。智能体通过最大化累积奖励来学习最优策略。

策略（Policy）：策略是智能体选择行动的规则或函数，它定义了在给定状态下应该采取的行动。策略可以是确定性的（每个状态只对应一个行动）或随机性的（每个状态对应一个行动的概率分布）。策略的目标是最大化智能体获得的累积奖励。

价值函数（Value Function）：价值函数估计从某个状态出发，遵循特定策略所能获得的累积奖励。价值函数可以是状态价值函数（State-Value Function），它表示某个状态开始并遵循当前策略所能获得的期望累积奖励；或者是行动价值函数（Action-Value Function），它表示某个状态下采取某个行动并遵循当前策略所能获得的期望累积奖励。

研发算法

Q-learning：Q-learning是一种无模型的强化学习算法，它属于价值迭代（value iteration）的方法。Q-learning的目标是学习一个策略，告诉智能体在给定状态下应该采取哪个行动以最大化累积奖励。这种方法的核心是动作价值函数（Action-Value Function），通常表示为Q(s, a)，它估计了在状态s下采取行动a并遵循最优策略所能获得的期望累积奖励。
Deep Q-Network（DQN）：DQN是一种结合了深度学习和强化学习（特别是Q-learning）的算法，它通过使用深度神经网络来近似Q值函数，从而能够处理具有高维状态空间的问题。DQN维护两个相同的神经网络：一个是用于决策的在线网络，另一个是用于计算目标Q值的目标网络。

Multi-Agent Reinforcement Learning（MARL）：MARL是强化学习的一个分支，它涉及到多个智能体在同一个环境中学习和交互。这些智能体可以是合作的、竞争的，或者是两者兼有的。智能体的行为会相互影响，导致环境动态变化，增加了学习难度。

PPO（Proximal Policy Optimization）：PPO是一种强化学习算法，由OpenAI在2017年提出，用于训练能够最大化累积奖励的智能体。PPO算法通过限制新策略与旧策略之间的差异来更稳定地更新策略参数，有助于避免训练过程中的不稳定性和剧烈波动，使得算法更容易收敛并学习到更好的策略。PPO是RLHF实施用到的具体算法之一。

应用

游戏：强化学习在游戏领域取得了巨大成功，如DeepMind的AlphaGo在围棋游戏中战胜了世界冠军。此外，还有AlphaGo Zero、AlphaZero、DeepStack/Libratus等，这些成就代表了不同类型的游戏问题，其背后的技术可以应用于广泛的游戏和单智能体控制问题。

机器人：在机器人技术领域，强化学习被用于学习复杂的运动技能，如模仿人类动作、行走和操纵物体。例如，有研究通过强化学习让机器人学习射箭技能。

工业过程控制：强化学习在工业过程控制中显示出超越人类水平的潜力，尤其是在存在足够精确的模拟器的情况下。它能够使用相同的算法学习多种不同的任务，这在工程领域具有巨大的潜力，因为定制设计的类似项目会导致显著的成本和时间支出。

自动驾驶：在自动驾驶领域，强化学习被用于训练车辆在复杂环境中的导航和决策能力。

教育领域：强化学习也被应用于教育领域，用于开发适应性和智能化的教育系统。例如，有研究通过强化学习优化教学策略。

强化学习

定义

发展历史

技术起源

发展历程

重大节点

阶段性成果

基本原理

主要技术

研发算法

应用

相关研究与发展

未来发展方向

最新研究进展

类似概念辨析

科普中国系列品牌网站

入驻科普号

合作机构