深入理解强化学习——多臂赌博机:非平稳问题

2023-11-07 02:36

本文主要是介绍深入理解强化学习——多臂赌博机:非平稳问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

分类目录:《深入理解强化学习》总目录


到目前为止我们讨论的取平均方法对平稳的赌博机问题是合适的,即收益的概率分布不随着时间变化的赌博机问题。但如果赌博机的收益概率是随着时间变化的,该方法就不合适。如前所述,我们经常会遇到非平稳的强化学习问题。在这种情形下,给近期的收益赋予比过去很久的收益更高的权值就是一种合理的处理方式。最流行的方法之一是使用固定步长。比如说,用于更新 n − 1 n-1 n1个过去的收益的均值 Q n Q_n Qn的增量更新规则可以改为:
Q n + 1 = Q n + α [ R n − Q n ] Q_{n+1}=Q_n+\alpha[R_n-Q_n] Qn+1=Qn+α[RnQn]

式中,步长参数 α ∈ ( 0 , 1 ] \alpha\in(0, 1] α(0,1]是一个常数。这使得 Q n + 1 Q_{n+1} Qn+1成为对过去的收益和初始的估计 Q 1 Q_1 Q1的加权平均。我们将此称为加权平均,因为我们可以验证权值的和是 ( 1 − α ) n + ∑ i = 1 n α ( 1 − α ) n − 1 = 1 (1-\alpha)^n+\sum_{i=1}^n\alpha(1-\alpha)^{n-1}=1 (1α)n+i=1nα(1α)n1=1。需要注意的是,赋给收益垃的权值 R i R_i Ri的权重依赖于它被观测到的具体时刻与当前时刻的差,即 n − i n-i ni 1 − α 1-\alpha 1α小于1,因此赋予的权值随着相隔次数的增加而递减。事实上,由于 ( 1 − α ) (1-\alpha) (1α)上的指数,权值以指数形式递减(如果 1 − α = 0 1-\alpha=0 1α=0,根据约定 0 0 = 1 0^0=1 00=1,则所有的权值都赋给最后一个收益 R i R_i Ri。正因为如此,这个方法有时候也被称为指数近因加权平均。

有时候随着时刻一步步改变步长参数是很方便的。设 α n ( a ) \alpha_n(a) αn(a)表示用于处理第 n n n次选择动作 a a a后收到的收益的步长参数。正如我们注意到的,选择 α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1会得到采样平均法,大数定律保证它可以收敛到真值。然而,收敛性当然不能保证对任何 { α n ( a ) } \{\alpha_n(a)\} {αn(a)}序列都满足。随机逼近理论中的一个著名结果给出了保证收敛概率为1所需的条件:
∑ i = 1 ∞ α n ( a ) = ∞ 且 ∑ i = 1 ∞ α n 2 ( a ) < ∞ \sum_{i=1}^\infty\alpha_n(a)=\infty\quad\text{且}\quad\sum_{i=1}^\infty\alpha^2_n(a)<\infty i=1αn(a)=i=1αn2(a)<

第一个条件是要求保证有足够大的步长,最终克服任何初始条件或随机波动。第二个条件保证最终步长变小,以保证收敛。两个收敛条件在采样平均的案例 α n ( a ) = 1 n \alpha_n(a)=\frac{1}{n} αn(a)=n1中都得到了满足,但在常数步长参数 α n ( a ) = α \alpha_n(a)=\alpha αn(a)=α中不满足。在后面一种情况下,第二个条件无法满足,说明估计永远无法完全收敛,而是会随着最近得到的收益而变化。正如我们前面提到的,在非平稳环境中这是我们想要的,而且强化学习中的问题实际上常常是非平稳的。此外,符合上述条件的步长参数序列常常收敛得很慢,或者需要大量的调试才能得到一个满意的收敛率。尽管在理论工作中很常用,但符合这些收敛条件的步长参数序列在实际应用和实验研究中很少用到。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

这篇关于深入理解强化学习——多臂赌博机:非平稳问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/360675

相关文章

解决pandas无法读取csv文件数据的问题

《解决pandas无法读取csv文件数据的问题》本文讲述作者用Pandas读取CSV文件时因参数设置不当导致数据错位,通过调整delimiter和on_bad_lines参数最终解决问题,并强调正确参... 目录一、前言二、问题复现1. 问题2. 通过 on_bad_lines=‘warn’ 跳过异常数据3

解决RocketMQ的幂等性问题

《解决RocketMQ的幂等性问题》重复消费因调用链路长、消息发送超时或消费者故障导致,通过生产者消息查询、Redis缓存及消费者唯一主键可以确保幂等性,避免重复处理,本文主要介绍了解决RocketM... 目录造成重复消费的原因解决方法生产者端消费者端代码实现造成重复消费的原因当系统的调用链路比较长的时

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499

kkFileView启动报错:报错2003端口占用的问题及解决

《kkFileView启动报错:报错2003端口占用的问题及解决》kkFileView启动报错因office组件2003端口未关闭,解决:查杀占用端口的进程,终止Java进程,使用shutdown.s... 目录原因解决总结kkFileViewjavascript启动报错启动office组件失败,请检查of

Java Spring的依赖注入理解及@Autowired用法示例详解

《JavaSpring的依赖注入理解及@Autowired用法示例详解》文章介绍了Spring依赖注入(DI)的概念、三种实现方式(构造器、Setter、字段注入),区分了@Autowired(注入... 目录一、什么是依赖注入(DI)?1. 定义2. 举个例子二、依赖注入的几种方式1. 构造器注入(Con

SpringBoot 异常处理/自定义格式校验的问题实例详解

《SpringBoot异常处理/自定义格式校验的问题实例详解》文章探讨SpringBoot中自定义注解校验问题,区分参数级与类级约束触发的异常类型,建议通过@RestControllerAdvice... 目录1. 问题简要描述2. 异常触发1) 参数级别约束2) 类级别约束3. 异常处理1) 字段级别约束

Python错误AttributeError: 'NoneType' object has no attribute问题的彻底解决方法

《Python错误AttributeError:NoneTypeobjecthasnoattribute问题的彻底解决方法》在Python项目开发和调试过程中,经常会碰到这样一个异常信息... 目录问题背景与概述错误解读:AttributeError: 'NoneType' object has no at

Spring的RedisTemplate的json反序列泛型丢失问题解决

《Spring的RedisTemplate的json反序列泛型丢失问题解决》本文主要介绍了SpringRedisTemplate中使用JSON序列化时泛型信息丢失的问题及其提出三种解决方案,可以根据性... 目录背景解决方案方案一方案二方案三总结背景在使用RedisTemplate操作redis时我们针对

Kotlin Map映射转换问题小结

《KotlinMap映射转换问题小结》文章介绍了Kotlin集合转换的多种方法,包括map(一对一转换)、mapIndexed(带索引)、mapNotNull(过滤null)、mapKeys/map... 目录Kotlin 集合转换:map、mapIndexed、mapNotNull、mapKeys、map

nginx中端口无权限的问题解决

《nginx中端口无权限的问题解决》当Nginx日志报错bind()to80failed(13:Permissiondenied)时,这通常是由于权限不足导致Nginx无法绑定到80端口,下面就来... 目录一、问题原因分析二、解决方案1. 以 root 权限运行 Nginx(不推荐)2. 为 Nginx