强化学习中Sara算法和Q-Learning算法的区别

2023-10-16 20:10

本文主要是介绍强化学习中Sara算法和Q-Learning算法的区别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 Q-Learning算法:

1,在环境S1中选出动作a1

2,得到a1这一步的动作价值

Q-target = R + γ*在状态S2中最优的下一步Q(s2, *a)的值

3,更新s1,a1这个状态的Q值

4,做出a1动作得到s2

Sara算法:

1,在环境S1中选出动作a1并得到S2

2,由环境S2选出将要下一步要进行的a2

3,由a1的奖励R,和Q(s2,a2)得到Q-target

 

4,由Q-target和原先的Q(s1,a1)去更新得到新的Q(s1,a1)

注:Q(s1,a1) = Q(s1, a1)+ α(Q-target - Q(s1,a1)) #  α是学习率

        二者在流程上是十分相似的,其区别在于Q-Learning在计算下一步的Q值时是用的S2状态中最好的那个Q值,但由于greedy在,所以实际上可能并不会采取这个动作。而Sara算法计算下一步Q值时是直接用已经得出的那个a2动作的Q值。

        换句话说,当走到S2这个状态时,如果S2是个“好状态”,那么Sara一定会选择最优的那一步a2,而Q-Learning可能会“冒险”选择其他动作(要看动作选择函数中的greedy police的值)。

        可以这么理解:面对一道难题,Sara比较老实,直接回答自己知道的答案,然后再检查自己这道题的是否拿到了分。而Q-Learning这个学生很聪明,他知道这道题(这个状态)的最优答案,但他也很调皮,他觉得这道题已经知道答案了所以先把这分加上,然后可能会去尝试其他答案。

        对于同样的(s1,a1)得到的S2,Sara是先做出了a2动作,再计算这个动作对应的Q值,而Q-learning是得到S2后思考这个S2这个状态最优的动作是什么后就加上这个最优动作的Q值,然后再去选动作。

        所以在模型训练表现上来看,Sara会看上去相对胆小,选错了就得到选错了的Q值,而Q-learning会更激进,哪怕选错了,也要得到这一步最优的Q值。

        在这个阶段,如果将greedy police(探索程度)的值设为1,也就是说Q-learning一定会选择计算Q-target时的那个动作,Sara也会选择S2对应的最优动作(不会选错),那么Q-learning和Sara算法某种程度上可以看做是一样的。(我个人看法)

这篇关于强化学习中Sara算法和Q-Learning算法的区别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/220530

相关文章

Before和BeforeClass的区别及说明

《Before和BeforeClass的区别及说明》:本文主要介绍Before和BeforeClass的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Before和BeforeClass的区别一个简单的例子当运行这个测试类时总结Before和Befor

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

Linux中的more 和 less区别对比分析

《Linux中的more和less区别对比分析》在Linux/Unix系统中,more和less都是用于分页查看文本文件的命令,但less是more的增强版,功能更强大,:本文主要介绍Linu... 目录1. 基础功能对比2. 常用操作对比less 的操作3. 实际使用示例4. 为什么推荐 less?5.

Java 关键字transient与注解@Transient的区别用途解析

《Java关键字transient与注解@Transient的区别用途解析》在Java中,transient是一个关键字,用于声明一个字段不会被序列化,这篇文章给大家介绍了Java关键字transi... 在Java中,transient 是一个关键字,用于声明一个字段不会被序列化。当一个对象被序列化时,被

解读@ConfigurationProperties和@value的区别

《解读@ConfigurationProperties和@value的区别》:本文主要介绍@ConfigurationProperties和@value的区别及说明,具有很好的参考价值,希望对大家... 目录1. 功能对比2. 使用场景对比@ConfigurationProperties@Value3. 核

Spring Boot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)

《SpringBoot拦截器Interceptor与过滤器Filter深度解析(区别、实现与实战指南)》:本文主要介绍SpringBoot拦截器Interceptor与过滤器Filter深度解析... 目录Spring Boot拦截器(Interceptor)与过滤器(Filter)深度解析:区别、实现与实

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

关于Mybatis和JDBC的使用及区别

《关于Mybatis和JDBC的使用及区别》:本文主要介绍关于Mybatis和JDBC的使用及区别,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、JDBC1.1、流程1.2、优缺点2、MyBATis2.1、执行流程2.2、使用2.3、实现方式1、XML配置文件

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示