增强学习（二）——策略迭代与值迭代

2023-11-08 00:32

文章标签 学习策略增强迭代与值

本文主要是介绍增强学习（二）——策略迭代与值迭代，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在上一篇文章中，我主要介绍了马尔可夫决策过程（MDP）。在了解了增强学习的基本思想后，我们便可以继续讨论“最优策略”的求解方法：

我们之前已经说到了MDP可以表示成一个元组（X, A, P_sa, R），我们对最优策略的求解方法自然也就与这个元组密切相关：如果该过程的四元组均为已知，我们称这样的模型为“模型已知”，对这种已知所有环境因素的学习称为“有模型学习”（model-basedlearning）；与之对应的就是“无模型学习”，环境因素机器无法得知的，主要是指状态转移概率P_xa。

本篇博客对“有模型学习”的两种方法进行介绍，分别是策略迭代和值迭代。在此之前，我们需要明确增强学习的两大步骤，策略评估与策略改进：

策略评估：

在上一篇博客中，我们已经对“状态值函数”和“状态动作值函数”进行了简单介绍，但在之前的考虑中，我们是认为策略已知，故在贝尔曼方程中没有考虑策略π的取值与改进问题。我们在此以“状态值函数”和“状态动作值函数”的T步累积奖赏为例重新进行完整的推导：

(1)

关于下标，R^a_x->x’表示的是在x状态下采取a动作，转移到x’状态后得到的回报，其他的类比即可。同理可以得到关于“状态动作值函数”Q的公式：

(2)

这样的递归式才是对于完整的MDP四元组的贝尔曼等式。也就是说，我们通过这两个公式，就可以通过逐步递归的方式，在编程上实现对策略π的评估。伪代码如下：

策略改进：

由于我们已经知道了怎样对策略进行评估，那么，我们可以产生一个很直接的求解最优策略的方法：从一个初始化的策略出发，先进行策略评估，然后改进策略，评估改进的策略，再进一步改进策略……不断迭代更新，直达策略收敛，这种做法被称为“策略迭代”，伪代码如下：

其中，Q的计算是根据公式(2)来进行的。

此外，我们不难理解，当Q^π(x,π’(x))>=V^π(x)时，我们可以认为在x的状态下，π’策略相比原来的策略更好。再结合上一篇博文中的最优贝尔曼方程，我们可以将策略的改进视为值函数的改善，以此得出“值迭代”方法，伪代码如下：

但是，这两种方法的缺点显而易见：必须知道状态转移概率才能进行最优策略的计算。这在我们真实的使用场景中几乎不可能实现，所以，我们将在下一篇中介绍适用性更强的“无模型学习”。

这篇关于增强学习（二）——策略迭代与值迭代的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/366984。 23002807@qq.com

相关文章

Unity新手入门学习殿堂级知识详细讲解（图文）

Unity新手入门学习殿堂级知识详细讲解（图文）

《Unity新手入门学习殿堂级知识详细讲解（图文）》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

阅读更多...

MySQL设置密码复杂度策略的完整步骤(附代码示例)

MySQL设置密码复杂度策略的完整步骤(附代码示例)

《MySQL设置密码复杂度策略的完整步骤(附代码示例)》MySQL密码策略还可能包括密码复杂度的检查,如是否要求密码包含大写字母、小写字母、数字和特殊字符等,：本文主要介绍MySQL设置密码复杂度... 目录前言1. 使用 validate_password 插件1.1 启用 validate_passwo

阅读更多...

Python学习笔记之getattr和hasattr用法示例详解

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

阅读更多...

Python实现网格交易策略的过程

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略，其核心思想是在价格上下预设多个“网格”，当价格触发特定网格时执行买

阅读更多...

Java设计模式---迭代器模式(Iterator)解读

Java设计模式---迭代器模式(Iterator)解读

《Java设计模式---迭代器模式(Iterator)解读》：本文主要介绍Java设计模式---迭代器模式(Iterator),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录1、迭代器（Iterator）1.1、结构1.2、常用方法1.3、本质1、解耦集合与遍历逻辑2、统一

阅读更多...

SpringBoot中4种数据水平分片策略

SpringBoot中4种数据水平分片策略

《SpringBoot中4种数据水平分片策略》数据水平分片作为一种水平扩展策略,通过将数据分散到多个物理节点上,有效解决了存储容量和性能瓶颈问题,下面小编就来和大家分享4种数据分片策略吧... 目录一、前言二、哈希分片2.1 原理2.2 SpringBoot实现2.3 优缺点分析2.4 适用场景三、范围分片

阅读更多...

Redis过期删除机制与内存淘汰策略的解析指南

Redis过期删除机制与内存淘汰策略的解析指南

《Redis过期删除机制与内存淘汰策略的解析指南》在使用Redis构建缓存系统时,很多开发者只设置了EXPIRE但却忽略了背后Redis的过期删除机制与内存淘汰策略,下面小编就来和大家详细介绍一下... 目录1、简述2、Redis http://www.chinasem.cn的过期删除策略（Key Expir

阅读更多...

Go学习记录之runtime包深入解析

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,：本文主要介绍Go学习记录之runtime包的... 目录前言：一、runtime包内容学习1、作用：① Goroutine和并发控制：② 垃圾回收：③ 栈和

阅读更多...

Android学习总结之Java和kotlin区别超详细分析

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,：本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1：Kotlin 如何解决 Java 的 NullPointerExceptio

阅读更多...

利用Python实现时间序列动量策略

利用Python实现时间序列动量策略

《利用Python实现时间序列动量策略》时间序列动量策略作为量化交易领域中最为持久且被深入研究的策略类型之一,其核心理念相对简明：对于显示上升趋势的资产建立多头头寸,对于呈现下降趋势的资产建立空头头寸... 目录引言传统策略面临的风险管理挑战波动率调整机制：实现风险标准化策略实施的技术细节波动率调整的战略价

阅读更多...