人工智障学习笔记——强化学习(1)马尔科夫决策过程

2024-01-10 06:08

本文主要是介绍人工智障学习笔记——强化学习(1)马尔科夫决策过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

概念

马尔可夫决策过程(MDP)是基于马尔可夫过程理论的随机动态系统的最优决策过程。指决策者周期地或连续地观察具有马尔可夫性的随机动态系统,序贯地作出决策。即根据每个时刻观察到的状态,从可用的行动集合中选用一个行动作出决策,系统下一步(未来)的状态是随机的,并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态,再作新的决策,依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形,在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制,其决策变量就是控制变量。

定义

马尔可夫决策过程是一个五元组(S,A,P(),R(),γ) 其中:
1)S是一组有限的状态,即状态集 (states)
2)A是一组有限的行为(或者,As 是从状态可用的有限的一组行动s),即动作集 (Action)
3)Pa(s,s')=Pr(st+1=s'midst=s,at=a)表示状态 s 下采取动作 a 之后转移到 s' 状态的概率
4)Ra(s,s')是状态 s 下采取动作 a 获得的奖励(或期望的直接奖励)
5)γ→[0,1]是折现系数,代表未来奖励与现在奖励之间的重要差异,也叫做衰减因子

MDP的核心问题是为决策者找到一个策略:一个功能π指:决策者什么时候会选择行动π(s)。一旦马尔可夫决策过程以这种方式与策略相结合,就可以解决每个状态的行为,并且产生的组合行为就像一个马尔可夫链。

目标是选择一项策略π这将最大化随机奖励的一些累积函数,通常是在可能无限的时间范围内的期望折扣总和:


其中at=π(st),γ是衰减因子,0<=γ<=1


分类

1.连续时间马尔可夫决策过程
对于连续时间的马尔可夫决策过程,可以在决策者选择的任何时候作出决定。与离散时间马尔可夫决策过程相比,连续时间马尔可夫决策过程可以更好地模拟连续动态系统的决策过程,即系统动力学由偏微分方程定义。
2.离散时间马尔科夫决策过程
在离散时间马尔科夫决策过程中,决策是在离散的时间间隔进行的。


策略

策略是提供给决策者在各个时刻选取行动的规则,记作π,其中πn是时刻n选取行动的规则。从理论上来说,为了在大范围寻求最优策略πn,最好根据时刻n以前的历史,甚至是随机地选择最优策略。但为了便于应用,常采用既不依赖于历史、又不依赖于时间的策略,甚至可以采用确定性平稳策略。
衡量策略优劣的常用指标有折扣指标和平均指标。折扣指标是指长期折扣〔把t时刻的单位收益折合成0时刻的单位收益的βt(β<1)倍〕期望总报酬;平均指标是指单位时间的平均期望报酬。
采用折扣指标的马尔可夫决策过程称为折扣模型。业已证明:若一个策略是β折扣最优的,则初始时刻的决策规则所构成的平稳策略对同一β也是折扣最优的,而且它还可以分解为若干个确定性平稳策略,它们对同一β都是最优的,已有计算这种策略的算法。
采用平均指标的马尔可夫决策过程称为平均模型。已证明:当状态空间S和行动集A(i)均为有限集时,对于平均指标存在最优的确定性平稳策略;当S和A(i)不是有限的情况,必须增加条件,才有最优的确定性平稳策略。计算这种策略的算法也已研制出来。


扩展

1.约束马尔可夫决策过程
约束马尔可夫决策过程(CMDPs)是马尔可夫决策过程(MDPs)的扩展。MDP和CMDP有三个基本的区别。
1)应用时一个动作而不是一个动作需要多个成本;
2)CMDP只能通过线性程序来解决,动态编程不起作用;
3)最终的政策取决于开始的状态。
CMDP有很多应用。它最近被用在机器人的运动规划场景中。
2.模糊马尔可夫决策过程(FMDPs)
在MDP中,最优策略是使未来奖励的概率加权总和最大化的策略。因此,最优策略由几个属于一组有限行为的动作组成。在模糊马尔可夫决策过程(FMDP)中,首先,价值函数被计算为规则的MDP(即具有有限的一组行动);那么,这个策略是通过一个模糊推理系统来提取的。换句话说,价值函数被用作模糊推理系统的输入,策略是模糊推理系统的输出



个人理解

和一般的马尔科夫过程不同,马尔科夫决策过程考虑了动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。还是举下棋的例子,当我们在某个局面(状态s)走了一步 (动作 a )。这时对手的选择(导致下个状态 s’ )我们是不能确定的,但是他的选择只和 s 和 a 有关,而不用考虑更早之前的状态和动作,即 s’ 是根据 s 和 a 随机生成的。
马尔可夫决策过程整体的思想就是通过回报函数回报值来评价动作执行的效果,当然这一过程是比较复杂的。迭代方法通常分为值迭代方法和策略迭代方法。对于规模较小的MDP,策略迭代一般能够更快的收敛;但对于规模较大的MDP(状态多),值迭代更容易些(没有线性方程组的计算)。






这篇关于人工智障学习笔记——强化学习(1)马尔科夫决策过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/589808

相关文章

Linux线程同步/互斥过程详解

《Linux线程同步/互斥过程详解》文章讲解多线程并发访问导致竞态条件,需通过互斥锁、原子操作和条件变量实现线程安全与同步,分析死锁条件及避免方法,并介绍RAII封装技术提升资源管理效率... 目录01. 资源共享问题1.1 多线程并发访问1.2 临界区与临界资源1.3 锁的引入02. 多线程案例2.1 为

批量导入txt数据到的redis过程

《批量导入txt数据到的redis过程》用户通过将Redis命令逐行写入txt文件,利用管道模式运行客户端,成功执行批量删除以Product*匹配的Key操作,提高了数据清理效率... 目录批量导入txt数据到Redisjs把redis命令按一条 一行写到txt中管道命令运行redis客户端成功了批量删除k

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Win10安装Maven与环境变量配置过程

《Win10安装Maven与环境变量配置过程》本文介绍Maven的安装与配置方法,涵盖下载、环境变量设置、本地仓库及镜像配置,指导如何在IDEA中正确配置Maven,适用于Java及其他语言项目的构建... 目录Maven 是什么?一、下载二、安装三、配置环境四、验证测试五、配置本地仓库六、配置国内镜像地址

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

python运用requests模拟浏览器发送请求过程

《python运用requests模拟浏览器发送请求过程》模拟浏览器请求可选用requests处理静态内容,selenium应对动态页面,playwright支持高级自动化,设置代理和超时参数,根据需... 目录使用requests库模拟浏览器请求使用selenium自动化浏览器操作使用playwright

Mysql中设计数据表的过程解析

《Mysql中设计数据表的过程解析》数据库约束通过NOTNULL、UNIQUE、DEFAULT、主键和外键等规则保障数据完整性,自动校验数据,减少人工错误,提升数据一致性和业务逻辑严谨性,本文介绍My... 目录1.引言2.NOT NULL——制定某列不可以存储NULL值2.UNIQUE——保证某一列的每一

解密SQL查询语句执行的过程

《解密SQL查询语句执行的过程》文章讲解了SQL语句的执行流程,涵盖解析、优化、执行三个核心阶段,并介绍执行计划查看方法EXPLAIN,同时提出性能优化技巧如合理使用索引、避免SELECT*、JOIN... 目录1. SQL语句的基本结构2. SQL语句的执行过程3. SQL语句的执行计划4. 常见的性能优

linux下shell脚本启动jar包实现过程

《linux下shell脚本启动jar包实现过程》确保APP_NAME和LOG_FILE位于目录内,首次启动前需手动创建log文件夹,否则报错,此为个人经验,供参考,欢迎支持脚本之家... 目录linux下shell脚本启动jar包样例1样例2总结linux下shell脚本启动jar包样例1#!/bin