强化学习第九章:策略梯度方法

2024-08-26 22:36

本文主要是介绍强化学习第九章:策略梯度方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

强化学习第九章:策略梯度方法

  • 思路
  • 优化函数
  • 优化函数的梯度
  • 求解 Monte Carlo policy gradient (REINFORCE)
  • 总结
  • 参考资料

思路

与上一章的思路类似, 状态-动作 对下标索引获取概率π(s, a)的方式转换为状态-动作对 或者状态输入到神经网络中,两种方式,之前DQN实际使用的第二种方式(输出作为状态动作价值):
在这里插入图片描述
同样,这种方式提高了数据的泛化性,存储效率高。

优化函数

接下来考虑基于策略的算法如何设定评价指标即优化函数呢,有两个:

  • 平均状态价值 average state value
    在这里插入图片描述
    其实就是求当前策略下 全局状态价值的期望 ,这个值越大,证明策略越好,d代表了 状态的分布
    对于d来说,
    • 如果与当前策略无关,那么就是一些 确切 的值,具体是多少呢?
      假如 平等 对待每个状态,那么就是都1/|S|
      假如只关心 一些状态 ,目的是优化策略 增加关心的 状态的价值,那么就赋 予这些状态更大的概率。
      在很多强化学习任务中,只关心从某个状态s0出发的最优策略,那么其实最大化的就是s0出发的 discounted return ,这个时候:
      在这里插入图片描述
    • 如果与当前策略有关,那么d就为dπ,dπ是个啥呢,其实就是马尔科夫链形成的平稳分布,有个性质就是,访问次数多的状态的dπ(s)大,反之小。
  • 平均一步奖励(immediately reward) average one-step reward
    在这里插入图片描述
    很好理解,再来看一下,针对一个状态的瞬时奖励的计算:
    在这里插入图片描述
    另一种表达式:
    在这里插入图片描述
    这种表达式的情况,当前策略下,瞬时奖励的期望 = 将一条轨迹的所有 瞬时奖励 求和再求算术平均,而这个 瞬时奖励 是个随机变量,所以有个期望符号。

回过头来,针对这个问题,设计了两个优化函数,那么做过优化的同学肯定知道现在该进行优化函数的相关性分析了,看他俩是否是一回事或者成正比(正相关)
直观上来看是正相关的,那么具体的证明呢,得利用到平稳分布的性质:
在这里插入图片描述
实际上就是一回事。

优化函数的梯度

对于上面的优化函数来说,求梯度之后都可以写成(具体赵老师书P206):
在这里插入图片描述
写成期望的形式:
在这里插入图片描述
OK,有梯度,开始求解

求解 Monte Carlo policy gradient (REINFORCE)

  • Monte Carlo policy gradient (REINFORCE)
    梯度上升迭代式:
    在这里插入图片描述
    这里和上面的梯度的区别在于:去掉了期望的符号,随机梯度下降;qπ变成了qt,熟悉的感觉来了,MC和TD,如果用MC,那么就是REINFORCE,如果是TD,那么请听下回分解。
    在这里插入图片描述

总结

注意最终的优化函数以及梯度的求解。

参考资料

【强化学习的数学原理】课程:从零开始到透彻理解(完结)

这篇关于强化学习第九章:策略梯度方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1109870

相关文章

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

Maven 配置中的 <mirror>绕过 HTTP 阻断机制的方法

《Maven配置中的<mirror>绕过HTTP阻断机制的方法》:本文主要介绍Maven配置中的<mirror>绕过HTTP阻断机制的方法,本文给大家分享问题原因及解决方案,感兴趣的朋友一... 目录一、问题场景:升级 Maven 后构建失败二、解决方案:通过 <mirror> 配置覆盖默认行为1. 配置示

SpringBoot排查和解决JSON解析错误(400 Bad Request)的方法

《SpringBoot排查和解决JSON解析错误(400BadRequest)的方法》在开发SpringBootRESTfulAPI时,客户端与服务端的数据交互通常使用JSON格式,然而,JSON... 目录问题背景1. 问题描述2. 错误分析解决方案1. 手动重新输入jsON2. 使用工具清理JSON3.

使用jenv工具管理多个JDK版本的方法步骤

《使用jenv工具管理多个JDK版本的方法步骤》jenv是一个开源的Java环境管理工具,旨在帮助开发者在同一台机器上轻松管理和切换多个Java版本,:本文主要介绍使用jenv工具管理多个JD... 目录一、jenv到底是干啥的?二、jenv的核心功能(一)管理多个Java版本(二)支持插件扩展(三)环境隔

Java中Map.Entry()含义及方法使用代码

《Java中Map.Entry()含义及方法使用代码》:本文主要介绍Java中Map.Entry()含义及方法使用的相关资料,Map.Entry是Java中Map的静态内部接口,用于表示键值对,其... 目录前言 Map.Entry作用核心方法常见使用场景1. 遍历 Map 的所有键值对2. 直接修改 Ma

Mybatis Plus Join使用方法示例详解

《MybatisPlusJoin使用方法示例详解》:本文主要介绍MybatisPlusJoin使用方法示例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,... 目录1、pom文件2、yaml配置文件3、分页插件4、示例代码:5、测试代码6、和PageHelper结合6

Java中实现线程的创建和启动的方法

《Java中实现线程的创建和启动的方法》在Java中,实现线程的创建和启动是两个不同但紧密相关的概念,理解为什么要启动线程(调用start()方法)而非直接调用run()方法,是掌握多线程编程的关键,... 目录1. 线程的生命周期2. start() vs run() 的本质区别3. 为什么必须通过 st

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略(Key Expir

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

C#之List集合去重复对象的实现方法

《C#之List集合去重复对象的实现方法》:本文主要介绍C#之List集合去重复对象的实现方法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录C# List集合去重复对象方法1、测试数据2、测试数据3、知识点补充总结C# List集合去重复对象方法1、测试数据