本文主要是介绍Stable Baselines/用户向导/RL算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Stable Baselines官方文档中文版 Github CSDN
尝试翻译官方文档,水平有限,如有错误万望指正
下面这个表格展示了stable baselines项目中采用的所有RL算法及其重要特征:迭代策略、离散/连续行动、多线程
| Name | Refactored [1] | Recurrent | Box | Discrete | Multi Processing |
|---|---|---|---|---|---|
| A2C | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
| ACER | ✔️ | ✔️ | ❌ [4] | ✔️ | ✔️ |
| ACKTR | ✔️ | ✔️ | ❌ [4] | ✔️ | ✔️ |
| DDPG | ✔️ | ❌ | ✔️ | ❌ | ✔️ [3] |
| DQN | ✔️ | ❌ | ❌ | ✔️ | ❌ |
| HER | ✔️ | ❌ | ✔️ | ✔️ | ❌ |
| GAIL [2] | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ [3] |
| PPO1 | ✔️ | ❌ | ✔️ | ✔️ | ✔️ [3] |
| PPO2 | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
| SAC | ✔️ | ❌ | ✔️ | ❌ | ❌ |
| TD3 | ✔️ | ❌ | ✔️ | ❌ | ❌ |
| TRPO | ✔️ | ❌ | ✔️ | ✔ | ✔️ [3] |
[1] 是否重构以适应BaseRLModel类
[2] 只用于TRPO
[3] (1,2,3,4)用MPI实现多重处理
[4] 在项目范围内,(1,2)必做
目前任何算法都不支持类似
Dict或Tuple这种非数组空间,除非HER与gym.GoalEnv一起用,此时会支持Dict
各类行动gym.spaces:
Box: 一个包含行动空间中每个点的N维盒子Discrete: 一组可能的行动,每个时间步中只会采用一个MultiDiscrete: 一组可能的行动,每个时间步每个离散集中只有一个行动被采用MultiBinary: 一组可能的行动,每个时间步中任何行动都可能以任何结合方式使用
这篇关于Stable Baselines/用户向导/RL算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!