强化学习中值的迭代

2023-11-07 09:04
文章标签 学习 强化 迭代 中值

本文主要是介绍强化学习中值的迭代,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、价值的迭代

        策略迭代的一个缺点是,其每次迭代都涉及策略评估,这本身可能是一个漫长的迭代计算,需要多次遍历状态集。如果策略评估是迭代进行的,那么只有当趋近于vπ时才会收敛。我们是否必须等待完全收敛,还是可以在达到该点之前停止?网格世界的示例表明中断策略评估是可行的。在该示例中,超过前三个迭代步骤的策略评估对相应的贪婪策略没有影响。

        事实上,策略迭代的策略评估步骤可以在不失去策略迭代收敛保证的情况下中断。一个重要的特殊情况是在仅进行一次遍历后停止策略评估(每个状态的一次备份)。这个算法称为值迭代。它可以写成一个特别简单的操作,该操作结合了策略改进和中断策略评估步骤:

        对于所有的s∈S。对于任意v0,{vk}序列在保证v∗存在的相同条件下可以证明收敛到v∗。

        理解价值迭代另一种方式是通过参考贝尔曼最优方程。价值迭代是通过将贝尔曼最优方程转化为更新规则而获得的。另外,价值迭代备份与策略评估相同,除了需要取所有动作的最大值。另一种看到这种紧密关系的方法是比较这些算法的图。最后,考虑价值迭代如何终止。与策略评估一样,价值迭代需要正式进行无限次迭代才能精确收敛到v∗。在实践中,一旦价值函数在一个遍历中的变化量很小,我们就会停止。图1给出了具有这种终止条件的价值迭代完整算法。

图1

价值迭代有效地在其每次扫描中结合了政策评估的一次扫描和政策改进的一次扫描。通过在每次政策改进扫描之间插入多次政策评估扫描,通常可以更快地收敛。一般来说,截断策略迭代算法的整个类可以被认为是扫描序列,其中一些使用策略评估备份,另一些使用价值迭代备份。所以这仅仅意味着将最大操作添加到一些策略评估的扫描中。所有这些算法都会收敛到折扣有限MDP的最优策略。

二、典型示例

        赌徒问题。一个赌徒有机会在掷硬币的结果上进行下注。如果硬币出现正面,他赢得与他在那次掷硬币中下注的赌注相同的美元数;如果是反面,他输掉了赌注。游戏在赌徒赢得100美元的目标或输光资金后结束。在每次掷硬币时,赌徒必须决定他的资本中下注多少,以整数的美元数。这个问题可以表述为一个非贴现的、独立的、有限的MDP(马尔可夫决策过程)。

        状态是赌徒的资本,s ∈ {1, 2, . . . , 99},动作是赌注,a ∈ {0, 1, . . . , min(s, 100-s)}。奖励在所有转换上都是零,除了在赌徒达到他的目标时的奖励+1。然后状态值函数给出从每个状态获胜的概率。策略是从资本水平到赌注的映射。最优策略最大化达到目标的概率。如果ph(正面朝上的概率)是已知的,那么整个问题就是已知的,例如可以通过值迭代来解决。

        图2显示了通过连续的价值迭代扫描,值函数的变化以及找到的最优策略,对于ph = 0.4的情况。这个策略是最优的,但不是唯一的。事实上,存在一整个最优策略族,它们都对应于最优值函数的argmax动作选择上的平局。对于ph = 0.4的赌徒问题的解决方案。图2显示了通过连续的价值迭代扫描找到的值函数。下图显示了最终策略。

图2

这篇关于强化学习中值的迭代的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/362595

相关文章

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

C++迭代器失效的避坑指南

《C++迭代器失效的避坑指南》在C++中,迭代器(iterator)是一种类似指针的对象,用于遍历STL容器(如vector、list、map等),迭代器失效是指在对容器进行某些操作后... 目录1. 什么是迭代器失效?2. 哪些操作会导致迭代器失效?2.1 vector 的插入操作(push_back,

Android NDK版本迭代与FFmpeg交叉编译完全指南

《AndroidNDK版本迭代与FFmpeg交叉编译完全指南》在Android开发中,使用NDK进行原生代码开发是一项常见需求,特别是当我们需要集成FFmpeg这样的多媒体处理库时,本文将深入分析A... 目录一、android NDK版本迭代分界线二、FFmpeg交叉编译关键注意事项三、完整编译脚本示例四

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Python 迭代器和生成器概念及场景分析

《Python迭代器和生成器概念及场景分析》yield是Python中实现惰性计算和协程的核心工具,结合send()、throw()、close()等方法,能够构建高效、灵活的数据流和控制流模型,这... 目录迭代器的介绍自定义迭代器省略的迭代器生产器的介绍yield的普通用法yield的高级用法yidle

C++变换迭代器使用方法小结

《C++变换迭代器使用方法小结》本文主要介绍了C++变换迭代器使用方法小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1、源码2、代码解析代码解析:transform_iterator1. transform_iterat

Mybatis从3.4.0版本到3.5.7版本的迭代方法实现

《Mybatis从3.4.0版本到3.5.7版本的迭代方法实现》本文主要介绍了Mybatis从3.4.0版本到3.5.7版本的迭代方法实现,包括主要的功能增强、不兼容的更改和修复的错误,具有一定的参考... 目录一、3.4.01、主要的功能增强2、selectCursor example3、不兼容的更改二、

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx