(202401)深度强化学习基础2：策略梯度

本文主要是介绍(202401)深度强化学习基础2：策略梯度，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

前言
策略梯度
- 1 基于价值算法的缺点
- 2 策略梯度算法
- 3 REINFORCE算法
- 本章小结

前言

感谢Datawhale成员的开源本次学习内容的文档地址为第九章策略梯度

策略梯度

这个章节会开始介绍基于策略梯度的算法。前面的算法都是针对“奖励”或者说“回报（reward）”的，而这次的则是直接对策略本身进行近似优化。这与之前的差别很大，我这里也大约明白了一点为什么任务一直接让人跳到DQN但是却不跳过第二章“马尔克夫决策过程”，因为马尔科夫决策过程是前面介绍过的全部强化学习算法的基础，它提供了可量化的指标从而能够从数学上优化决策。而现在我们大约是将会被介绍一种不同于“马尔科夫决策过程”的方法了！

但是根据我后面看到的内容，我发现并不是这样（QAQ），策略梯度算法也是需要使用“价值”的；具体的容我下面试图理解。

这个方法的粗略描述是，将策略描述成一个带有参数 $\theta$ 的连续函数，某个状态是输出，对应的动作概率分布是输出，乘坐随机性策略。但是看到这里，依然不理解是怎样进行优化的；或许数学功底足够好的人看到“描述成连续函数”就能够恍然大悟，但是我是不理解的，还需要继续看下去。

1 基于价值算法的缺点

无法表示连续动作：可以理解为其实之前的都是一个选择，比如跳格子，前进一步、两步、三步；而实际上机器人的运动控制基本都是连续动作空间。虽然在使用的时候可以把连续的离散化，反正如果是我的话，就凑合着过呗——但是既然现在知道有这样一种能表示连续动作空间的，那就要努力接受。
高方差：基于价值的方法通常都是通过采样的方式来估计价值函数，这样会导致估计的方差很高，从而影响算法的收敛性。然后后面提到改进的DQN算法如改善经验回放、目标网络的方式都可以在一定程度上减小方差，但是不能解决问题。
探索与利用的平衡问题：这一段基本读不懂，请查阅原文，大概意思是说，DQN这些基于价值的算法一般用贪心来实现一定程度的随机，但是不够理想。