强化学习（一）：强化学习与马尔科夫决策过程

本文主要是介绍强化学习（一）：强化学习与马尔科夫决策过程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. 强化学习概念

1.1. 负反馈控制

在经典的自动控制原理中，控制信号 $u$ 是根据被控对象的状态进行控制的，同时再考虑被控量的理想值，最终能使被控量的实际值和理想值达到一致。

这样的控制作用基于经典的负反馈思想

$u(t) = K(y(t) - y_s)$
在这里插入图片描述

而对于离散系统，在 $k$ 时刻施加的控制信号 $u (k)$ 是指在 $k$ 时刻观测到了系统状态 $x (k)$ 之后施加的控制信号，从而使系统状态由 $x (k)$ 变成 $x (k + 1)$ 。而 $u (k)$ 的设计一定是使系统状态与预期值达到一致。

这样控制器和被控对象的交互就构成了一个序列：
$x (k), u (k), x (k + 1), u (k + 1), . . .$

控制作用就取决于 $u (k)$ 的式子了，经典控制中 $u (k)$ 的表达式是确定的，例如经典PID中的参数是先通过阶跃曲线法调好在加入控制回路中，LQR中的增益K也是提前计算好的。

同时也可以不断实验以调整 $u (k)$ 实现对系统的控制，最终得到针对某个特定系统的控制信号 $u (k)$ ，这就是强化学习的思想。

1.2. 强化学习

强化学习的思路是是使智能体不断地控制，不断地从控制结果调整控制信号 $u (k)$ ，最终完成控制。只不过强化学习的目标不再是使被控量收敛至预定值，而是达到最大的累积奖励。

比如你在写作业，在不知后果的情况下去打游戏，发现最后会被你妈打一顿。下次在写作业的时候，又去打游戏，然后又被打。长此以往你就知道了，跑去打游戏会被妈妈打，于是你选择继续写作业而不是去打游戏。强化学习就是基于这样的奖励机制调整控制策略的。

状态 State：即系统状态 $x (k)$ 。
动作 Action：针对当前状态施加的控制信号 $u (k)$ ，从而智能体到达一个新的状态 $x (k + 1)$
奖励 Reward：在状态 $x (k)$ 下应用某种动作 $u (k)$ 转移至另一个状态 $x (k + 1)$ ，会给出一个奖励值 $r e w a r d [x (k), u (k)]$
值函数 Value function：在状态 $x (k)$ 下应用某种动作 $u (k)$ 会给出一个到达终止状态的累积奖励的期望 $v a l u e F u n c t i o n [x (k), u (k)]$

值函数和奖励的区别在于，奖励只表达这一步行动的奖励值，值函数表达的是这一步为开始，最终到达终止状态的所有奖励的和的期望值。即值函数衡量的是这一步对整体的贡献。当然值函数一定包括这一步的奖励。
策略 Policy：根据当前状态得出动作的方法，是基于值函数最大得出的动作，即 $u (k) = P o l i c y (x (k), v a l u e F u n c t i o n ())$ 。强化学习关注的是长远的利益而非眼前的奖励。

因此强化学习的目标就是得到策略Policy，使智能体在任意状态下达到最大的累积收益。

而这个策略的得出，则需要不断地训练调整得出。就需要智能体不断地探索数据，探索每一步的未来的累积收益如何，并利用这些探索的数据进行策略更新。

参考资料

强化学习(一)：简介

2. 马尔科夫决策过程(Markov decision process, MDP)

马尔科夫决策过程是强化学习中智能体应用策略的过程，与离散系统的控制类似，在当前状态施加一个行为，得到新的状态，并得到一个收益。
$x (k), u (k), r e w a r d (k + 1), x (k + 1), u (k + 1), . . .$

2.1. 定义

典型的MDP包含如下五个要素
在这里插入图片描述
其中

$S$ ：系统状态的有限集合
$A$ ：系统可采取的行动的的有限集合
$\pi(a|s)$ ：表示在状态 $s$ 下选择动作 $a$ 的概率，可看作在该状态下的随机策略。 $\pi(s)$ 表示状态 $s$ 下选择的动作，为确定性策略。用 $\pi$ 表示任意状态下的动作策略。
$R (s, a, s^{'})$ ：收益，表示在状态 $s$ 下采取动作 $a$ 到达新状态 $s^{'}$ 而获得的奖励。
$G$ ：回报，在时间 $[1, T]$ 内所有行动的收益累积

因此MDP就是在状态 $s$ 下根据 $\pi(a|s)$ 求得行为 $a$ 而发生状态转移至 $s^{'}$ ，获得收益 $R (s, a, s^{'})$ 。其中策略 $\pi$ 能够使整个行动过程（或是episode）的收益累积，或是回报 $G$ 最大。

2.2. 动态特性

动态特性指的是在状态 $s$ 时采取动作 $a$ ，从而状态转移至 $s^{'}$ 并获得收益 $r$ 的概率
$P(s',r|s,a)=Pr\{St=s',Rt=r|St-1=s,At-1=a\}$

并满足 $\sum_{s' \in S}\sum_{r \in R}p(s',r|s,a)=1$

使用动态特性可以得出很多量例如状态转移概率，期望收益等等。

对于一个MDP， $S, A, R, G, P (s^{'}, r ∣ s, a)$ 均是由环境给出，而唯有策略 $\pi$ 是由智能体自身给出，也是控制量。

因此问题是：如何衡量策略的好坏，如何制定最优的策略？

2.3. 折扣

episode：智能体按照策略 $\pi$ 行动，从起始点开始并最终终止于某个终结状态的整个过程。
因此策略 $\pi$ 的好坏首先体现在每个使用该策略的episode的好坏。

折扣
那么如何评价某次episode的好坏呢？评估每个episode的好坏应该去看该episode从头至尾智能体的收益的累积和。若起始时刻为 $t$ ，则

$G_t= R_{t+1}+R_{t+2}+R_{t+3}+...+R_{T}$

因此智能体的每一步决策都尽量使整个行为过程的收益累积和最大。

但是如果该episode没有终止条件， $G_t$ 的值如果不收敛将趋于无穷大。趋于无穷大的收益和不利于策略的评估，因此引入折扣变量 $\gamma$

$G_t= R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...=R_{t+1}+\gamma G_{t+1}$

这样无限回报将变成有界的。

每个episode都有其相应的收益累积和，同一个策略 $\pi$ 不同的episode可能有不同的收益累积。那么如何评估策略 $\pi$ 的好坏呢？使用价值函数，即单个episode的收益累积和的期望值

2.4. 价值函数

价值函数就是收益和的期望，有了策略 $\pi$ 就可以计算价值函数了

状态价值函数 $v_{\pi}(s)$ ：表示在状态 $s$ 开始使用策略 $\pi$ 进行决策的累积回报期望值
$v_{\pi}(s) = E_{\pi}[G_t|S_t = s]$
行为价值函数 $q_{\pi}(s,a)$ ：表示在状态 $s$ 采取行动 $a$ 之后的所有状态，使用策略 $\pi$ 进行决策的累积回报期望值
$q_{\pi}(s,a) = E_{\pi}[G_t|S_t = s,A_t = a]=\sum_{s',r}p(s',r|s,a)[r+\gamma \times v_{\pi}(s')]\tag{重要}$

注意 $v_{\pi}(s)$ 与 $q_{\pi}(s,a)$ 的关系，根据策略 $\pi$ 动作的选择有一个概率分布
$v_{\pi}(s)=\sum_{a}\pi(a|s) \times q_{\pi}(s,a)\tag{重要}$

2.5. 最优策略与最优价值函数

最优策略 $\pi_*$ 指对于任意状态 $\in S$ 和该状态下的任意行为 $a$ ，该策略的价值函数最大，即
$v_*(s) = \max_{\pi}(v_{\pi}(s)), q_*(s,a) = \max_{\pi}(q_{\pi}(s,a))$

那么最优策略 $\pi_*$ 满足什么样的条件呢？

如下图所示，对于一个状态 $s$ 有许多行为 $a$ 可供选择，每个行为都有其各自的 $q_*(s,a)$ ，因此一定有

$v_{\pi}(s)=\sum_{a}\pi(a|s) \times q_{\pi}(s,a) ≤ 1 \times \max_{a}(q_{\pi}(s,a)) ≤ 1 \times \max_{a}(q_{*}(s,a))$

当且仅当 $\pi = \pi_*$ 取等，即最优策略的概率分布一定为
$\pi[\argmax_{a}(q_{*}(s,a)) |s] = 1\tag{重要}$
不可能有其他的概率分布 $\pi(a|s)$ 与 $q_{\pi}(s,a)$ 比 $max_{a}(q_{*}(s,a))$ 更大了。
在这里插入图片描述