使用DDPG算法实现cartpole 100万次不倒

2023-11-02 19:20

本文主要是介绍使用DDPG算法实现cartpole 100万次不倒,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DDPG的全称是Deep Deterministic Policy Gradient,一种Actor Critic机器增强学习方法。
CartPole是http://gym.openai.com/envs/CartPole-v0/ 这个网站提供的一个杆子不倒的测试环境。 CartPole环境返回一个状态包括位置、加速度、杆子垂直夹角和角加速度。玩家控制左右两个方向使杆子不倒。杆子倒了或超出水平位置限制就结束一个回合。一个回合中杆不倒动作步数越多越好。
cartpole_ddpg 程序是训练出一个DDPG神经网络,用来玩CartPole-v0,使杆子不倒,步数越多越好。现在程序已可以训练出100万步不倒的网络。
源代码:https://github.com/ccjy88/cartpole_ddpg
最多测过一个回合中100万步不倒,为了节约时间程序中一个回合坚持100000步杆子不倒,程序主动退出循环。用现在程序参数1000个回合内就可以产生不倒的回合。
10万次没有倒
算法特点:
为了尽可能多的得到Critic评价的高分,就需要尽可能多的尝试各种可能。因些每一个回合尝试的步
数 MAX_EP_STEPS 设置的比较大为7500步,也可以设置为10000步、20000步。

为了尽可能多的尝试各种可能,开始运行时通过加入随机数产生动作,大约前450次是搜集数据并不学习。等采集的样本数大于MAX_EP_STEPS后才开始学习。当一个回合结束时或达到MAX_EP_STEPS步,在这个回合中记录的奖励reward计算奖励贴现值。并将这个奖励用来训来Critic的Q估计网络和Q_现实网络。大约学习330个回合后就可以产生永远不倒的情况了,前450个回合并只是收集数据没有学习。

程序说明:
cartpole_DDPG.py 是主程序。
设置一个回合最大步数MAX_EP_STEPS=7500
记录状态动作的内存也是7500行容量。
创建Brain_DDPG为agent。
在每个回合的步骤中,从agent获得动作,并加入正确分布的随机值。随机值的系数在训练后逐步减少直至为0.
从环境获得奖励和下一个状态,并存储在这个回合的记忆内存中。
每个回合结束后在回合记忆内存中计算奖励的贴现值,并增加到agent的记忆中。
agent的记忆中足够大再开始学习,对于坚持步数很多的回合全部学习,而不是随机取样学习,要全面学习。

Brain_DDPG.py为DDPG算法实现的内核。
DDPG算法公式略。
大思路为根据状态、动作和奖励,训练出一个Critic能对状态和动作正确打分Q。
有了分值Q,就可以再训练一个Actor在状态s时能做出高分动作a。
现在的程序能在学习几百个回合后,训练出一个Brain,实现一个回合10万次百万次杆子不倒。

定义变量当前状态s 下一个状态s_ 当前动作a,下一个动作a_,奖励r
封装类Brain_DDPG做为API接口。Brain_DDPG的四个子类:
Q是Critic,打分的网络,Q(s,a)打出分q
Q是打分估计网络。Q_打分的现实网络。Q和Q_结构完全相同,参数由Q逐步同步到Q_
U是Actor,是执行动作的网络。U(s)返回动作a
U是动作估计网络,U_是动作现实网络。U和U_结构完全相同,参数由U逐步同步到U_

核心算法是先由U_(s_)算出下一个动作a_
再由Q_和参数r,s_,a_算出q的现实值q_target = r + gamma * Q_(s_,a_)
由Q(s,a)算出估计值q
损失函数就是 q_target - q的差的平方再平均。
对着损失函数不断进行梯度下降学习,就可以训练出打分的Q网络了。Q参数再软同步到Q_

有了Q,那么就需要让动作网络训练成返回高分的动作。设U的参数为theta(U)。
为了求最大值需要求梯度grad(Q,theta(u))。按复合函数求导公式写成
grad_u = (grad(U * grad(Q,grad(U) ,theta(u))
对 grad_u 进行梯度下降优化,可以优化网络U的参数theta(U),使U(s)返回的动作a打分Q最高。因为tensorflow中的优化器支不持最大值,所以使用了负的学习率并求最小值。

源代码:
https://github.com/ccjy88/cartpole_ddpg
程序测试环境:
python 3.7.7
tensorflow 1.15.0rc3
无显卡无硬件加速

参考:
https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/tree/master

这篇关于使用DDPG算法实现cartpole 100万次不倒的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/332752

相关文章

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

SpringBoot中使用Flux实现流式返回的方法小结

《SpringBoot中使用Flux实现流式返回的方法小结》文章介绍流式返回(StreamingResponse)在SpringBoot中通过Flux实现,优势包括提升用户体验、降低内存消耗、支持长连... 目录背景流式返回的核心概念与优势1. 提升用户体验2. 降低内存消耗3. 支持长连接与实时通信在Sp

Conda虚拟环境的复制和迁移的四种方法实现

《Conda虚拟环境的复制和迁移的四种方法实现》本文主要介绍了Conda虚拟环境的复制和迁移的四种方法实现,包括requirements.txt,environment.yml,conda-pack,... 目录在本机复制Conda虚拟环境相同操作系统之间复制环境方法一:requirements.txt方法

Spring Boot 实现 IP 限流的原理、实践与利弊解析

《SpringBoot实现IP限流的原理、实践与利弊解析》在SpringBoot中实现IP限流是一种简单而有效的方式来保障系统的稳定性和可用性,本文给大家介绍SpringBoot实现IP限... 目录一、引言二、IP 限流原理2.1 令牌桶算法2.2 漏桶算法三、使用场景3.1 防止恶意攻击3.2 控制资源

springboot下载接口限速功能实现

《springboot下载接口限速功能实现》通过Redis统计并发数动态调整每个用户带宽,核心逻辑为每秒读取并发送限定数据量,防止单用户占用过多资源,确保整体下载均衡且高效,本文给大家介绍spring... 目录 一、整体目标 二、涉及的主要类/方法✅ 三、核心流程图解(简化) 四、关键代码详解1️⃣ 设置

Nginx 配置跨域的实现及常见问题解决

《Nginx配置跨域的实现及常见问题解决》本文主要介绍了Nginx配置跨域的实现及常见问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来... 目录1. 跨域1.1 同源策略1.2 跨域资源共享(CORS)2. Nginx 配置跨域的场景2.1

python使用库爬取m3u8文件的示例

《python使用库爬取m3u8文件的示例》本文主要介绍了python使用库爬取m3u8文件的示例,可以使用requests、m3u8、ffmpeg等库,实现获取、解析、下载视频片段并合并等步骤,具有... 目录一、准备工作二、获取m3u8文件内容三、解析m3u8文件四、下载视频片段五、合并视频片段六、错误

Python中提取文件名扩展名的多种方法实现

《Python中提取文件名扩展名的多种方法实现》在Python编程中,经常会遇到需要从文件名中提取扩展名的场景,Python提供了多种方法来实现这一功能,不同方法适用于不同的场景和需求,包括os.pa... 目录技术背景实现步骤方法一:使用os.path.splitext方法二:使用pathlib模块方法三

CSS实现元素撑满剩余空间的五种方法

《CSS实现元素撑满剩余空间的五种方法》在日常开发中,我们经常需要让某个元素占据容器的剩余空间,本文将介绍5种不同的方法来实现这个需求,并分析各种方法的优缺点,感兴趣的朋友一起看看吧... css实现元素撑满剩余空间的5种方法 在日常开发中,我们经常需要让某个元素占据容器的剩余空间。这是一个常见的布局需求

HTML5 getUserMedia API网页录音实现指南示例小结

《HTML5getUserMediaAPI网页录音实现指南示例小结》本教程将指导你如何利用这一API,结合WebAudioAPI,实现网页录音功能,从获取音频流到处理和保存录音,整个过程将逐步... 目录1. html5 getUserMedia API简介1.1 API概念与历史1.2 功能与优势1.3