强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略（下）

本文主要是介绍强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略（下），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

马尔可夫决策过程组成

策略

智能体的策略policy通常用 $\pi$ 表示，即 $\pi (a|s)=P(A_t=a|S_t=s)$ ，在输入状态s的情况下采取动作a的概率。

状态价值函数

价值定义为从状态出发遵循策略能获得的期望回报，数学表达为：
$V^{\pi}(s)=\mathbb{E}_\pi [G_t|S_t=s]$

动作价值函数

遵循策略时，对当前状态 s 执行动作 a 得到的期望回报：
$Q^\pi(s,a)=\mathbb{E}_\pi[G_t|S_t=s,A_t=a]$
在使用该策略的情况下，状态s的价值（期望回报）等于该状态下基于此策略采用所有动作的概率与相应价值相乘的和
$V^\pi(s)=\sum_{a\in A}\pi(a|s)Q^\pi(s,a)$

贝尔曼期望方程

在贝尔曼方程中加上“期望”二字是为了与接下来的贝尔曼最优方程进行区分。
$\begin{aligned} V^{\pi}(s)&=\mathbb{E}_\pi [G_t|S_t=s]\\ &=\mathbb{E}_\pi [R_t+\gamma G_{t+1}|S_t=s] \end{aligned}$
因为 r 是奖励的期望，那么该策略下的价值为
$V^\pi(s)=\sum_{a\in A}\pi(a|s)(r(s,a)+\gamma \mathbb{E}_\pi [ G_{t+1}|S_t=s])$
注意后面是 $G_{t+1}$ ，而不是 $G_t$ ，那么就需要将下一个状态是什么的所有可能性包括在内进行计算，因此引出状态转移概率，得到状态价值函数的贝尔曼方程：
$V^\pi(s)=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\right)$
下一个状态的概率乘以下一个状态的期望，求和之后，则为所有可能发生的状态对应的期望的期望。

去掉前面的策略求和，可得动作价值函数的贝尔曼方程：
$Q^{\pi}(s,a)=r(s,a)+\gamma\sum_{s^{\prime}\in S}p(s^{\prime}|s,a)\sum_{a^{\prime}\in A}\pi(a^{\prime}|s^{\prime})Q^\pi(s^{\prime},a^{\prime})$

最优策略

总有一个策略大于等于所有策略，称之为最优策略。
$\begin{gathered}V^*(s)=\max_{a\in\mathcal{A}}\{r(s,a)+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)V^*(s^{\prime})\}\\Q^*(s,a)=r(s,a)+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)\max_{a^{\prime}\in\mathcal{A}}Q^*(s^{\prime},a^{\prime})\end{gathered}$