强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(下)

本文主要是介绍强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(下),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

马尔可夫决策过程组成

策略

智能体的策略policy通常用 π \pi π 表示,即 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi (a|s)=P(A_t=a|S_t=s) π(as)=P(At=aSt=s) ,在输入状态s的情况下采取动作a的概率。

状态价值函数

价值定义为从状态出发遵循策略能获得的期望回报,数学表达为:
V π ( s ) = E π [ G t ∣ S t = s ] V^{\pi}(s)=\mathbb{E}_\pi [G_t|S_t=s] Vπ(s)=Eπ[GtSt=s]

动作价值函数

遵循策略时,对当前状态 s 执行动作 a 得到的期望回报:
Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] Q^\pi(s,a)=\mathbb{E}_\pi[G_t|S_t=s,A_t=a] Qπ(s,a)=Eπ[GtSt=s,At=a]
在使用该策略的情况下,状态s的价值(期望回报)等于该状态下基于此策略采用所有动作的概率与相应价值相乘的和
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V^\pi(s)=\sum_{a\in A}\pi(a|s)Q^\pi(s,a) Vπ(s)=aAπ(as)Qπ(s,a)

贝尔曼期望方程

在贝尔曼方程中加上“期望”二字是为了与接下来的贝尔曼最优方程进行区分。
V π ( s ) = E π [ G t ∣ S t = s ] = E π [ R t + γ G t + 1 ∣ S t = s ] \begin{aligned} V^{\pi}(s)&=\mathbb{E}_\pi [G_t|S_t=s]\\ &=\mathbb{E}_\pi [R_t+\gamma G_{t+1}|S_t=s] \end{aligned} Vπ(s)=Eπ[GtSt=s]=Eπ[Rt+γGt+1St=s]
因为 r 是奖励的期望,那么该策略下的价值为
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( r ( s , a ) + γ E π [ G t + 1 ∣ S t = s ] ) V^\pi(s)=\sum_{a\in A}\pi(a|s)(r(s,a)+\gamma \mathbb{E}_\pi [ G_{t+1}|S_t=s]) Vπ(s)=aAπ(as)(r(s,a)+γEπ[Gt+1St=s])
注意后面是 G t + 1 G_{t+1} Gt+1 ,而不是 G t G_t Gt ,那么就需要将下一个状态是什么的所有可能性包括在内进行计算,因此引出状态转移概率,得到状态价值函数的贝尔曼方程:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V^\pi(s)=\sum_{a\in A}\pi(a|s)\left(r(s,a)+\gamma\sum_{s'\in S}p(s'|s,a)V^{\pi}(s')\right) Vπ(s)=aAπ(as)(r(s,a)+γsSp(ss,a)Vπ(s))
下一个状态的概率乘以下一个状态的期望,求和之后,则为所有可能发生的状态对应的期望的期望。

去掉前面的策略求和,可得动作价值函数的贝尔曼方程:
Q π ( s , a ) = r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^{\pi}(s,a)=r(s,a)+\gamma\sum_{s^{\prime}\in S}p(s^{\prime}|s,a)\sum_{a^{\prime}\in A}\pi(a^{\prime}|s^{\prime})Q^\pi(s^{\prime},a^{\prime}) Qπ(s,a)=r(s,a)+γsSp(ss,a)aAπ(as)Qπ(s,a)

最优策略

总有一个策略大于等于所有策略,称之为最优策略。
V ∗ ( s ) = max ⁡ a ∈ A { r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V ∗ ( s ′ ) } Q ∗ ( s , a ) = r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) max ⁡ a ′ ∈ A Q ∗ ( s ′ , a ′ ) \begin{gathered}V^*(s)=\max_{a\in\mathcal{A}}\{r(s,a)+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)V^*(s^{\prime})\}\\Q^*(s,a)=r(s,a)+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)\max_{a^{\prime}\in\mathcal{A}}Q^*(s^{\prime},a^{\prime})\end{gathered} V(s)=aAmax{r(s,a)+γsSp(ss,a)V(s)}Q(s,a)=r(s,a)+γsSp(ss,a)aAmaxQ(s,a)

这篇关于强化学习3——马尔可夫性质、马尔科夫决策、状态转移矩阵和回报与策略(下)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/577193

相关文章

Redis中6种缓存更新策略详解

《Redis中6种缓存更新策略详解》Redis作为一款高性能的内存数据库,已经成为缓存层的首选解决方案,然而,使用缓存时最大的挑战在于保证缓存数据与底层数据源的一致性,本文将介绍Redis中6种缓存更... 目录引言策略一:Cache-Aside(旁路缓存)策略工作原理代码示例优缺点分析适用场景策略二:Re

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

SpringBoot基于配置实现短信服务策略的动态切换

《SpringBoot基于配置实现短信服务策略的动态切换》这篇文章主要为大家详细介绍了SpringBoot在接入多个短信服务商(如阿里云、腾讯云、华为云)后,如何根据配置或环境切换使用不同的服务商,需... 目录目标功能示例配置(application.yml)配置类绑定短信发送策略接口示例:阿里云 & 腾

redis过期key的删除策略介绍

《redis过期key的删除策略介绍》:本文主要介绍redis过期key的删除策略,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录第一种策略:被动删除第二种策略:定期删除第三种策略:强制删除关于big key的清理UNLINK命令FLUSHALL/FLUSHDB命

SpringRetry重试机制之@Retryable注解与重试策略详解

《SpringRetry重试机制之@Retryable注解与重试策略详解》本文将详细介绍SpringRetry的重试机制,特别是@Retryable注解的使用及各种重试策略的配置,帮助开发者构建更加健... 目录引言一、SpringRetry基础知识二、启用SpringRetry三、@Retryable注解

MySQL 分区与分库分表策略应用小结

《MySQL分区与分库分表策略应用小结》在大数据量、复杂查询和高并发的应用场景下,单一数据库往往难以满足性能和扩展性的要求,本文将详细介绍这两种策略的基本概念、实现方法及优缺点,并通过实际案例展示如... 目录mysql 分区与分库分表策略1. 数据库水平拆分的背景2. MySQL 分区策略2.1 分区概念

SpringSecurity JWT基于令牌的无状态认证实现

《SpringSecurityJWT基于令牌的无状态认证实现》SpringSecurity中实现基于JWT的无状态认证是一种常见的做法,本文就来介绍一下SpringSecurityJWT基于令牌的无... 目录引言一、JWT基本原理与结构二、Spring Security JWT依赖配置三、JWT令牌生成与

关于WebSocket协议状态码解析

《关于WebSocket协议状态码解析》:本文主要介绍关于WebSocket协议状态码的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录WebSocket协议状态码解析1. 引言2. WebSocket协议状态码概述3. WebSocket协议状态码详解3

SpringBoot如何通过Map实现策略模式

《SpringBoot如何通过Map实现策略模式》策略模式是一种行为设计模式,它允许在运行时选择算法的行为,在Spring框架中,我们可以利用@Resource注解和Map集合来优雅地实现策略模式,这... 目录前言底层机制解析Spring的集合类型自动装配@Resource注解的行为实现原理使用直接使用M