深入理解强化学习——多臂赌博机:非平稳问题

2023-11-07 02:36

本文主要是介绍深入理解强化学习——多臂赌博机:非平稳问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

分类目录:《深入理解强化学习》总目录


到目前为止我们讨论的取平均方法对平稳的赌博机问题是合适的,即收益的概率分布不随着时间变化的赌博机问题。但如果赌博机的收益概率是随着时间变化的,该方法就不合适。如前所述,我们经常会遇到非平稳的强化学习问题。在这种情形下,给近期的收益赋予比过去很久的收益更高的权值就是一种合理的处理方式。最流行的方法之一是使用固定步长。比如说,用于更新 n − 1 n-1 n1个过去的收益的均值 Q n Q_n Qn的增量更新规则可以改为:
Q n + 1 = Q n + α [ R n − Q n ] Q_{n+1}=Q_n+\alpha[R_n-Q_n] Qn+1=Qn+α[RnQn]

式中,步长参数 α ∈ ( 0 , 1 ] \alpha\in(0, 1] α(0,1]是一个常数。这使得 Q n + 1 Q_{n+1} Qn+1成为对过去的收益和初始的估计 Q 1 Q_1 Q1的加权平均。我们将此称为加权平均,因为我们可以验证权值的和是 ( 1 − α ) n + ∑ i = 1 n α ( 1 − α ) n − 1 = 1 (1-\alpha)^n+\sum_{i=1}^n\alpha(1-\alpha)^{n-1}=1 (1α)n+i=1nα(1α)n1=1。需要注意的是,赋给收益垃的权值 R i R_i Ri的权重依赖于它被观测到的具体时刻与当前时刻的差,即 n − i n-i ni 1 − α 1-\alpha 1α小于1,因此赋予的权值随着相隔次数的增加而递减。事实上,由于 ( 1 − α ) (1-\alpha) (1α)上的指数,权值以指数形式递减(如果 1 − α = 0 1-\alpha=0 1α=0,根据约定 0 0 = 1 0^0=1 00=1,则所有的权值都赋给最后一个收益 R i R_i Ri。正因为如此,这个方法有时候也被称为指数近因加权平均。

有时候随着时刻一步步改变步长参数是很方便的。设 α n ( a ) \alpha_n(a) αn(a)表示用于处理第 n n n次选择动作 a a a后收到的收益的步长参数。正如我们注意到的,选择 α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1会得到采样平均法,大数定律保证它可以收敛到真值。然而,收敛性当然不能保证对任何 { α n ( a ) } \{\alpha_n(a)\} {αn(a)}序列都满足。随机逼近理论中的一个著名结果给出了保证收敛概率为1所需的条件:
∑ i = 1 ∞ α n ( a ) = ∞ 且 ∑ i = 1 ∞ α n 2 ( a ) < ∞ \sum_{i=1}^\infty\alpha_n(a)=\infty\quad\text{且}\quad\sum_{i=1}^\infty\alpha^2_n(a)<\infty i=1αn(a)=i=1αn2(a)<

第一个条件是要求保证有足够大的步长,最终克服任何初始条件或随机波动。第二个条件保证最终步长变小,以保证收敛。两个收敛条件在采样平均的案例 α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1中都得到了满足,但在常数步长参数 α n ( a ) = α \alpha_n(a)=\alpha αn(a)=α中不满足。在后面一种情况下,第二个条件无法满足,说明估计永远无法完全收敛,而是会随着最近得到的收益而变化。正如我们前面提到的,在非平稳环境中这是我们想要的,而且强化学习中的问题实际上常常是非平稳的。此外,符合上述条件的步长参数序列常常收敛得很慢,或者需要大量的调试才能得到一个满意的收敛率。尽管在理论工作中很常用,但符合这些收敛条件的步长参数序列在实际应用和实验研究中很少用到。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

这篇关于深入理解强化学习——多臂赌博机:非平稳问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/360675

相关文章

MySQL数据库约束深入详解

《MySQL数据库约束深入详解》:本文主要介绍MySQL数据库约束,在MySQL数据库中,约束是用来限制进入表中的数据类型的一种技术,通过使用约束,可以确保数据的准确性、完整性和可靠性,需要的朋友... 目录一、数据库约束的概念二、约束类型三、NOT NULL 非空约束四、DEFAULT 默认值约束五、UN

解决IDEA报错:编码GBK的不可映射字符问题

《解决IDEA报错:编码GBK的不可映射字符问题》:本文主要介绍解决IDEA报错:编码GBK的不可映射字符问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录IDEA报错:编码GBK的不可映射字符终端软件问题描述原因分析解决方案方法1:将命令改为方法2:右下jav

MyBatis模糊查询报错:ParserException: not supported.pos 问题解决

《MyBatis模糊查询报错:ParserException:notsupported.pos问题解决》本文主要介绍了MyBatis模糊查询报错:ParserException:notsuppo... 目录问题描述问题根源错误SQL解析逻辑深层原因分析三种解决方案方案一:使用CONCAT函数(推荐)方案二:

Redis 热 key 和大 key 问题小结

《Redis热key和大key问题小结》:本文主要介绍Redis热key和大key问题小结,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、什么是 Redis 热 key?热 key(Hot Key)定义: 热 key 常见表现:热 key 的风险:二、

Java Stream流使用案例深入详解

《JavaStream流使用案例深入详解》:本文主要介绍JavaStream流使用案例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录前言1. Lambda1.1 语法1.2 没参数只有一条语句或者多条语句1.3 一个参数只有一条语句或者多

IntelliJ IDEA 中配置 Spring MVC 环境的详细步骤及问题解决

《IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决》:本文主要介绍IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决,本文分步骤结合实例给大... 目录步骤 1:创建 Maven Web 项目步骤 2:添加 Spring MVC 依赖1、保存后执行2、将新的依赖

Spring 中的循环引用问题解决方法

《Spring中的循环引用问题解决方法》:本文主要介绍Spring中的循环引用问题解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录什么是循环引用?循环依赖三级缓存解决循环依赖二级缓存三级缓存本章来聊聊Spring 中的循环引用问题该如何解决。这里聊

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Spring Boot中JSON数值溢出问题从报错到优雅解决办法

《SpringBoot中JSON数值溢出问题从报错到优雅解决办法》:本文主要介绍SpringBoot中JSON数值溢出问题从报错到优雅的解决办法,通过修改字段类型为Long、添加全局异常处理和... 目录一、问题背景:为什么我的接口突然报错了?二、为什么会发生这个错误?1. Java 数据类型的“容量”限制

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图