10-07 12:18 阅读 111

机器学习基础（第二版）翻译第17章强化学习

引言

本章介绍了强化学习，这是机器学习的一个丰富领域，与控制理论、优化和认知科学有关。强化学习是指在学习者积极与环境互动以实现特定目标的情况下进行规划和学习的研究。这种主动的交互作用证明了用来指代学习者的代理的术语。代理目标的实现通常是通过它从环境中获得的奖励并寻求最大化的奖励来衡量的。

我们首先介绍了强化学习的一般场景，然后介绍了马尔可夫决策过程 $(M D P s)$ 的模型，在该领域被广泛采用，以及与该模型相关的政策或政策价值等基本概念。本章的其余部分介绍了针对规划问题的几种算法，它对应于代理已知环境模型的情况，然后是针对未知模型的更一般情况的一系列学习算法

17.1学习场景

强化学习的一般场景如图17.1所示。与前几章中考虑的监督学习场景不同，这里的学习者不会被动地接收一个标记的数据集。相反，它通过与环境的交互，通过一个行动过程来收集信息。为了响应一个动作，学习者或代理会接收到两种类型的信息：它在环境中的当前状态，以及特定于任务及其相应目标的实值奖励。

代理的目标是最大化其奖励，从而确定实现该目标的最佳行动方案或策略。然而，他从环境中获得的信息只是与刚刚采取的行动相关的即时奖励。环境不提供未来或长期的奖励反馈。强化学习的一个重要方面是考虑延迟奖励或惩罚。代理面临着探索未知状态和行动以获取有关环境和奖励的更多信息与利用已收集的信息来优化其奖励之间的两难境地。这被称为强化学习固有的探索与开发权衡。

图片1.png

图 17.1 强化学习的一般场景的表示。

请注意，强化学习的学习场景与前几章中讨论的监督学习的学习场景之间存在一些差异。与监督学习不同，在强化学习中，根据绘制的实例没有固定的分布；它是定义观察分布的策略的选择。事实上，政策的细微变化可能会对收到的奖励产生巨大影响。此外，一般来说，环境可能不是固定的，并且可能会因代理选择的操作而变化。对于某些学习问题，这可能是比标准监督学习更现实的模型。最后，请注意，与监督学习不同，在强化学习中，训练和测试阶段是混合的。

这里可以区分两种主要设置：一种是代理已知环境模型，在这种情况下，其最大化收到的奖励的目标被简化为规划问题；以及环境模型未知的情况，在这种情况下，代理面临学习问题。在后一种情况下，代理必须从状态中学习并奖励收集的信息，以获取有关环境的信息并确定最佳行动策略。本章介绍了这两种设置的算法解决方案

17.2 马尔可夫决策过程模型

我们首先介绍马尔可夫决策过程 $(M D P)$ 模型，这是强化学习中广泛采用的环境和与环境交互的模型。 $M D P$ 是一个马尔可夫过程，定义如下。

定义 17.1 $(M D P)$ 马尔可夫决策过程 $(M D P)$ 定义为：

• 一组状态 S，可能是无限的。

图片2.png

图 17.2

MDP 在不同时间的状态和转换的图示。

• 一组状态 $S$ ，可能是无限的。
• 开始状态或初始状态 $s0∈Ss{_0}\in S$ 。
• 一组动作A，可能是无限的。
• 转移概率 $P[s′∣s,a]P[s'\mid s,a]$ ：目标状态 $s′=δ(s,a)s'=\delta(s, a)$ 上的分布。
• 奖励概率 $P [r^{'}$ \mid $s, a]$ ：返回的奖励分布 $r^{'} = r (s, a)$ 。

该模型是马尔可夫模型，因为转移和奖励概率仅取决于当前状态，而不取决于状态和所采取行动的整个历史。 MDP 的这个定义可以进一步推广到非离散状态和动作集的情况。

在离散时间模型中，在一组决策时期 ${0, . . . , T}$ ，这就是我们将在下面采用的模型。该模型也可以直接推广到连续时间模型，其中在任意时间点采取行动。

当 $T$ 是有限的时，MDP 被称为具有有限的范围。独立于时间范围的有限性，当 $S 和 A$ 都是有限集时，MDP 被称为有限集。在这里，我们考虑一般情况，当采取行动 $a$ 时，状态 $s$ 的奖励 $r (s, a)$ 是一个随机变量。然而，在许多情况下，奖励被假定为状态和动作对 $(s, a)$ 的确定性函数。

图 17.2 说明了对应于 $M D P$ 的模型。在时间 $t ∈ {0, . . . , T}$ 代理观察到的状态是 $s_t$ 并且它在 $at∈Aa{_t}\in A$ 处采取行动。达到的状态是 $s_{t+1}$ （概率为 $_{t+1}\mid s _t , a _t ])$ 收到的奖励为 $_{t+1}\in R$ 概率为 $_{t+1}\mid s _t , a _t ])。$

许多现实世界的任务都可以用 $M D P$ 来表示。图 17.3 给出了机器人在网球场上捡球的简单 $M D P$ 示例。

17.3 策略

$M D P$ 环境中代理的主要问题是确定在每个状态下要采取的动作，即动作策略。

17.3.1 定义

定义 17.2（策略） 策略是映射 $π\pi$ :S $→Δ\to\Delta$ (A)，其中 $Δ(A)是A\Delta (A) 是 A$ 上的一组概率分布。如果对于任何 $s$ ,在唯一的 $a∈Aa\in A$ ，则策略 $π\pi$ 是确定性的使得 $π(s)(a)=1\pi(s)(a)= 1$ 。在这种情况下，我们可以通过从 S 到 A 的映射来识别 $π\pi$ ，并使用 π(s) 来表示该动作。

更准确地说，这是固定策略的定义，因为动作分布的选择不依赖于时间。更一般地说，我们可以将非平稳策略定义为由 $t$ 索引的一系列映射 $πt:S→Δ(A)。\pi t :S \to\Delta (A)。$ 特别是，在有限范围的情况下，非平稳策略通常是优化奖励所必需的。

代理的目标是找到最大化其预期（奖励）回报的策略。它沿着特定的状态序列 s $_0$ ,... 遵循确定性策略 π 接收到的回报。 $s_T$ 定义如下：

对于有限范围 $\infty ) : \sum^{T}_{t=0} r（s _t,\pi(s{_t} )$
对于无限范围 $\infty ）: \sum^{+\infty}_{t=0}\gamma^tr(s_t,\pi(s_t))$ ,其中 $γ∈[0,1)\gamma\in [0, 1)$ 是一个小于用于折现未来奖励的常数因子。

请注意，回报是一个单一的标量，总结了可能无限的即时奖励序列。在打折的情况下，早期奖励被认为比后期奖励更有价值。

17.3.2 政策价值

这导致了每个状态的政策价值的以下定义。

定义 17.3（策略值） 策略 $π\pi$ 在状态= $\in S 的值 V \pi (s)$ 定义为从 $s$ 开始并遵循策略 $π\pi$ 时返回的预期奖励： 1.有限范围： $_{\pi}(s) = E_{at\sim\pi(S{_t})} [ \sum^{T}_{t=0}r（s_t,{a_t)\mid}s_0=s ];$
2.无限范围: $_{\pi}(s) = E_{at\sim\pi(S{_t})} [ \sum^{T}_{t=0}\gamma^tr（s_t, a_t)\mid s_0=s],$ 其中期望是根据分布 $π(s _t )$ 随机选择一个行为 $a_t$ ，一个无限的无法折扣的范围也经常被认为是基于平均奖励存在时的限制。

17.3.3最优策略

从状态 s $∈\in$ S 开始，为了最大化其奖励，代理自然会寻找具有最大值 $V_π (s)$ 的策略 $π 。$ 在本节中，我们将展示，值得注意的是，对于无限范围设置中的任何有限 $M D P$ ，都存在对任何起始状态都是最优的策略，即具有以下定义的策略。

定义17.4（最佳策略） 一个策略 $π∗{\pi^∗}$ 是最优的，如果它的值对于每个状态 $\in S$ 都是最大的，也就是说，对于任何策略 $π$ 和任何状态 $\in S，V{_{\pi^*}} (s) \ge V_\pi (s)。$ 图片3.png

图 17.3

机器人在网球场上捡球的简单 MDP 示例。动作集是 A = {search, Carry, pick} 并且状态集简化为 S = {start, other}。每个转换都标有动作，然后是转换概率的概率和采取该动作后收到的奖励。 $R_1、R_2 和 R_3$ 实数，表示与每个转换相关的奖励（确定性奖励的情况）。

此外，我们将证明对于任何 MDP 都存在确定性最优策略。为此，引入状态-动作值函数的概念很方便。

定义 17.5（状态-动作价值函数） 与策略 $π\pi$ 相关的状态-动作价值函数 $Q$ 被定义为所有 $\in S × A$ 作为在状态 $\in A$ 采取动作 $a \in A$ 的预期回报 $S$ ，然后遵循策略 $π：\pi：$

$Qπ(s,a)=∑[r(s,a)]+∑at∼π(st[∑t=1+∞γt(st,at)∣s0=s,a0=a](17.1)=∑[r(s,a)+γVπ(s1)∣s0=s,a0=a].\begin{aligned} Q_\pi(s,a)&=\sum[r(s,a)]+\sum\limits_{a_t\sim\pi(s{_t}}[\sum\limits_{t=1}^{+\infty}\gamma^t(s_t,a_t)\mid{s_0=s,a_0=a}] &&&&&(17.1) \\ & =\sum[r(s,a)+\gamma{V_\pi(s_1)}\mid s_0=s,a_0=a]. \\ \end{aligned}$

请注意， $∑a∼π(s)[Qπ(s,a)]=Vπ(s)\sum_{a\sim\pi(s)}[Q_\pi(s,a)]=V_\pi(s)$ （参见命题17.9）

定理17.6（策略改进定理） 对于任意两种策略 $π$ 和 $π^{'}$ ，适用如下

$(∀s∈S,∑a∼π′(s)(s,a)]≥∑a∼π(s)[Qπ(s,a)])⇒(∀s∈S,Vπ′(s)≥Vπ(s))(\forall_s\in S,\sum\limits_{a\sim\pi'(s)}(s,a)]\ge\sum\limits_{a\sim\pi(s)}[Q_\pi(s,a)])\Rightarrow(\forall_s\in S,V_{\pi'}(s)\ge V_\pi(s))$ .

此外，左侧至少一个状态的严格不等式意味着右侧至少一个状态 s 的严格不等式

证明：假设 $π\pi$ 验证左侧。对于任何 $s∈Ss\in S$ ,我们有

$Vπ(s)=∑a∼π(s)[Qπ(s,a)]≤∑a∼π′(s)[Qπ(s,a)]=∑a∼π′(s)[r(s,a)+γVπ(s1)∣s0=s]=∑a∼π′(s)[r(s,a)+γ∑a∼π′(s1)[Qπ(s1,a1)]∣s0=s]≤∑a∼π′(s)[r(s,a)+γ∑a∼π′(s1)[Qπ(s1,a1)]∣s0=s]=∑a∼π′(s)a1∼π′(s1)[r(s,a)+γr(s1,a1)+γ2V(s2)∣s0=s]\begin{aligned} V_{\pi}(s)&=\sum\limits_{a\sim\pi(s)}[Q_{\pi}(s,a)]\\ &\le \sum\limits_{a\sim\pi'(s)}[Q_{\pi}(s,a)]\\ &= \sum\limits_{a\sim\pi'(s)}[r(s,a)+\gamma V_{\pi}(s_1)\mid s_0=s]\\ &=\sum\limits_{a\sim\pi'(s)}[r(s,a)+\gamma\sum\limits_{a\sim\pi'(s_1)}[Q_{\pi}(s_1,a_1)]\mid s_0=s]\\ &\le \sum\limits_{a\sim\pi'(s)}[r(s,a)+\gamma\sum\limits_{a\sim\pi'(s_1)}[Q_{\pi}(s_1,a_1)]\mid s_0=s]\\ &=\sum\limits_{\substack{ a\sim\pi'(s)\\a_1\sim\pi'(s_1)}}[r(s,a)+\gamma r(s_1,a_1)+\gamma^2V_(s_2)\mid s_0=s] \end{aligned}$

以这种方式进行表明，对于任何 $T \geq 1 ：$

$Vπ(s)≤∑at∼π′(st)[∑T=0Tγt∑][r(st,at)]+γT+1Vπ(sT+1)∣s0=s]V_\pi(s)\le\sum\limits_{a_t\sim\pi'(s_t)}[\sum\limits^T_{T=0}\gamma^t\footnotesize\sum][r(s_t,a_t)]+\gamma^{T+1}V_\pi(s_{T+1})\mid s_0=s]$

由于 $Vπ(sT+1)V_\pi(s_{T +1})$ 是有范围的，取极限 $T→∞T\to\infty$ 给出

$Vπ(s)≤∑at∼π′(st)[∑t=0+∞γt∑[r(st,at)]∣s0=s]=Vπ′(s).V_\pi(s)\le\footnotesize\sum\limits_{a_t\sim\pi'(s_t)}[\Large\sum\limits^{+\infty}_{t=0}\gamma^t\footnotesize\sum[r(s_t,a_t)]\mid s_0=s]=V_\pi'(s).$

最后，左侧性质中的任何严格不等式都会导致上述不等式链中的严格等式。

定理 17.7（Bellman 的最优性条件） 策略 $π\pi$ 是最优的，当条件是任何对 $\in S × A$ 且 $π(s)(a)>0\pi(s)(a) > 0$ 满足以下条件：

$a∈argmaxa′∈AQπ(s,a′)\qquad a \in \mathop{argmax}\limits_{a'\in A} Q_\pi(s,a')$

证明：根据定理 $17.6$ ，如果条件 $(17.2)$ 对某些 $(s, a)$ 不成立且 $π (s) (a) > 0$ ,则策略 $π$ 不是最优的。这是因为 $π\pi$ 可以通过定义 $π′\pi'$ 得到改进，使得 $π′(s′)=π(s)fors′≠s\pi' (s' ) = \pi(s) for s' \not= s$ 并且 $^{'} (s) 集中在$ argmax_{a'\in A} $Qπ(s，a′）。Q_{\pi}( s，a'）。$ 因此，根据定理 $17.6$ ，对于至少一个 $s$ 和 $π，Vπ′(s)>Vπ(s){\pi}，V\pi'(s) > V\pi(s)$ 不是最优的。
相反，让 $π′\pi'$ 是一个非最优策略。那么存在一个策略 $π\pi$ 和至少一个状态 s，其中 $Vπ′(s)<Vπ(s)V\pi'(s) < V\pi(s)$ 。根据定理 $17.6$ ，这意味着存在一些状态 $\in S$ ，其中 $∑a∼π′(s)<∑a∼π(s)[Qπ(s,a)]\sum_{a\sim\pi'(s)} <\sum_{a\simπ(s)}[Q_\pi(s, a)]$ 。因此， $π′\pi'$ 能满足条件 $（ 17.2 ）$ 。]

定理 17.8（最优确定性策略的存在）

任何有限 MDP 都承认最优确定性策略。

证明：令 $π∗\pi^*$ 成为最大化 $∑s∈SVπ(s)\sum_{s\in S}V_{\pi}(s)$ 的确定性策略。 $π∗\pi^*$ 存在是因为只有有限多个确定性策略。如果 $π∗\pi^*$ 不是最优的，根据定理 $17.7$ ，将存在一个状态 $s$ ，其中 $π(s)∈argmaxa′∈AQπ(s,a′)\pi(s) \in argmax_{a'\in A} Q_{\pi}(s, a' )$ 。根据定理 $17.6$ ，可以通过选择策略 $π\pi$ 来改进 $π\pi$ ∗，其中 $π(s)∈argmaxaxa∈AQπ(s,a′)\pi (s) \in argmaxax a\in A Q_{\pi}(s, a' )$ 并且 $π\pi$ 与所有其他状态的 $π\pi$ ∗ 重合。但随后 $π\pi$ 将验证 $Vπ∗(s)≤Vπ(s)V\pi∗(s) ≤ V\pi(s)$ 至少对于一种状态具有严格的不等式。这与 $π∗\pi∗$ 最大化 $∑s∈SVπ(s)\sum_{s\in S}V_\pi(s)$ 的事实相矛盾。

鉴于存在确定性最优策略，在下文中，为简化讨论，我们将仅考虑确定性策略。让 $π∗\pi^*$ 表示一个（确定性的）最优策略，让 $Q *$ 和 $V *$ 表示其对应的状态动作价值函数和价值函数。由定理 $17.7$ ，我们可以写出.

$∀s∈S,π∗(s)=argmara∈AQ∗(s,a)\forall s \in S, \pi^*(s)=\mathop{argmar}\limits_{a\in A} Q^*(s,a)$

因此，状态-动作价值函数 $Q^∗$ 的知识足以让智能体确定最优策略，而无需直接了解奖励或转移概率。根据定义替换 $Q^∗$ 给出了以下最优策略值 $V∗(s)=Q∗(s,π∗(s))V^∗(s) = Q^∗(s, \pi^∗(s))$ 的方程组：

$∀s∈S,V∗(s)=maxa∈A∑[r(s,a)]+γ∑s′∈SP[s′∣s,a]V∗(S′)\forall s \in S ,V^*(s)=\mathop{max}\limits_{a\in A}{\sum}[r(s,a)]+\gamma\sum\limits_{s'\in S}P[s'\mid s,a]V^*(S')$ ,

又称贝尔曼方程。请注意，由于 $m a x$ 运算符的存在，该方程组不是线性的。

17.3.4 政策评估

一个策略在状态 s 的价值可以用它在其他状态的价值来表达状态，形成一个线性方程组。

命题 17.9（贝尔曼方程）

对于无限范围 $M D P$ ，策略 $π\pi$ 在状态 $s$ 的值 V $π\pi$ (s) 服从以下线性方程组 $∈s\in s$

$∀s∈S,Vπ(s)=∑a1∼π(s)[r(s,a1)]+γ∑s′P[s′∣s,π(s)]Vπ(s′)\forall s \in S,V_{\pi}(s)=\sum\limits_{a_1\sim\pi(s)}[r(s,a_1)]+\gamma\sum\limits_{s'}P[s'\mid s,\pi(s)]V_\pi(s')$

证明：我们可以将策略值的表达式分解为第一项和其余项的总和，其中承认 γ 作为乘数：

$Vπ(s)=E[∑t=0+∞γtr(st,π（st))∣s0=s].=E[r(s,π(s))]+γE∑t=0+∞γtr(st+1,π(st+1))∣s0=s]=E[r(s,π(s))]+γE∑t=0+∞γtr(st+1,π(st+1))∣s1=δ（s,π(s))]=E[r(s,π(s)]+γE[Vπ(δ(s,π(s)))]\begin{aligned} V_\pi(s)&=E[\sum\limits_{t=0}^{+\infty}\gamma^tr(s_t,\pi（s_t))\mid s_0=s].\\ &=E[r(s,\pi(s))]+\gamma E\sum\limits_{t=0}^{+\infty}\gamma^tr(s_{t+1},\pi(s_{t+1}))\mid s_0=s]\\ &=E[r(s,\pi(s))]+\gamma E\sum\limits_{t=0}^{+\infty}\gamma^tr(s_{t+1},\pi(s_{t+1}))\mid s_1=\delta（s,\pi(s))]\\ &=E[r(s,\pi(s)]+\gamma E[V\pi(\delta(s,\pi(s)))]\\ \end{aligned}$

至此，证明完毕。这是一个线性方程组，也称为贝尔曼方程，不同于非线性系统 $(17.4) 。$ 系统可以改写为
$V=R+γPVV=R+\gamma PV$
使用以下符号： $P$ 表示由 $Ps,s′=P[s′∣s,π(s)]P_{s,s'}=P[s'\mid s,\pi(s)]$ 定义的转移概率矩阵，对于所有 $s,s′∈Ss,s'\in S$ ; $V$ 是第 $s$ 个分量为 $VS=Vπ(s)V_S= V_\pi(s)$ 的值列矩阵；和 $R$ 是奖励列矩阵，其第 $s$ 分量是 $Rs=E[r(s,π(s)].R_s=E[r(s,\pi(s)].$ $V$ 通常是贝尔曼方程中的未知变量，通过求解它来确定。

以下定理表明，对于有限 $M D P$ ,该线性方程组允许唯一解。

定理 $17.10$ 对于有限 $M D P$ , $B e l l m a n$ 方程允许唯一解由下式给出

$V0=(I−γP)−1R.V_0=(I-\gamma P)^{-1}R.$

证明：贝尔曼方程 $（ 17.6 ）$ 可以等价地写为
$(I−γP)V=R.(I-\gamma P)V=R.$

因此，为了证明该定理，只需证明 $(I−γP)(I-\gamma P)$ 是可逆的。为此，请注意 $P$ 的无穷大可以使用其随机性属性计算：
$∣∣P∣∣∞=maxs∑s′∣Pss′∣=maxs∑s′P[s′∣s,π(s)]=1\vert \vert P \vert \vert _\infty=\mathop{max}\limits_s\sum\limits_{s'}\vert P_{ss'}\vert=\mathop{max}\limits_s\sum\limits_{s'}P[s'\vert s,\pi(s)]=1$

这意味着 $∣∣γP∣∣∞=γ<1。γP\vert\vert\gamma P \vert\vert_\infty=\gamma<1。\gamma P$ 的特征值因此都小于 $1$ ,并且 $(I−γP)(I-\gamma P)$ 是可逆的

作者：人间翩若惊鸿
链接：https://juejin.cn/post/7015947157437939719

机器学习基础（第二版）翻译 第17章强化学习

引言