ALNS的MDP模型| 还没整理完12-08

2023-12-08 13:28
文章标签 整理 模型 08 alns mdp

本文主要是介绍ALNS的MDP模型| 还没整理完12-08,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

有好几篇论文已经这样做了,先摆出一篇,然后再慢慢更新

第一篇

在这里插入图片描述

该篇论文提出了一种称为深增强ALNS(DR-ALNS)的方法,它利用DRL选择最有效的破坏和修复运营商,配置破坏严重性参数施加在破坏算子上,并设置ALNS框架内的验收标准值。DRL在每次搜索迭代时配置ALNS。与其他基于DRL的针对特定的优化问题的方法,这篇论文的目标是以一种概括的方式利用DRL。

为了实现这一点,该方法除了定义的破坏算子和修复算子,不依赖于任何特定于问题的信息。下图提供了用于DR-ALNS的伪代码和训练算法。
在这里插入图片描述

在该方法中,学习选择破坏和修复策略,配置破坏度,并在自适应大邻域搜索过程的每次迭代中设置验收标准参数。
将这个学习问题建模为一个连续的决策过程,在这个过程中,代理人通过采取行动和观察结果与环境进行交互。该过程使用称为马尔可夫决策过程(MDP)的数学框架来建模,其表示为元组<S,A,R,P>。

状态空间S为DRL代理提供了所需的信息,用于在搜索迭代期间做出明智的决策以选择最佳的可能动作。为了实现这一点,我们将S表示为包含7个问题不可知特征的一维向量,如表1所示。这些特征为代理提供了关于搜索过程的相关信息,

包括:
当前解决方案是否是迄今为止找到的最佳解决方案,
最佳解决方案最近是否已被改进,
当前解决方案最近是否已被接受
新的当前解决方案是否是新的最佳解决方案,
与最佳解决方案的成本差异百分比,
未改进最佳解决方案的迭代次数
剩余搜索预算百分比

在这里插入图片描述
动作空间A由破坏算子选择、修复算子选择、破坏度配置、验收标准参数设置四个动作空间组成。在每个时间步,DRL代理必须为每个空间选择一个操作。
在这里插入图片描述

?不是选择一组动作而是选择单个动作?

奖励函数
在这里插入图片描述

状态转移函数P是由DRL主体通过与环境交互来学习的,因为主体没有关于它的先验知识。通过以这种方式制定MDP,我们为DRL主体提供了一个问题不可知的环境来学习如何选择动作。这意味着状态空间S和奖励函数R不依赖于任何特定于问题的信息。为了使用该方法,实践者只需要定义破坏“和修复”算子,然后使用它们在MDP中创建动作空间A。

?不是选择一组动作而是选择单个动作?
没读懂…

摘要中写
.ALNS在搜索过程中自适应地选择各种算法,利用它们的优势为优化问题找到好的解决方案。然而,ALNS的有效性取决于其选择和验收参数的适当配置。为了解决这一限制,我们提出了一种深度强化学习(DRL)方法,该方法在搜索过程中选择算法、调整参数并控制接受标准。
ALNS的壳,DRL的芯?

所提出的方法的目的基于搜索状态,学习如何配置ALNS的下一次迭代,以获得良好的解决方案的基础优化问题。

第二篇

在这里插入图片描述

这个是根据表现选择算法对儿 ,该框架使用深度强化学习(Deep RL)作为ALNS自适应层的替代方案,与仅考虑搜索引擎的过去性能以用于未来选择的自适应层不同,深度RL代理能够考虑来自搜索过程的附加信息,例如,迭代之间目标值的差异,以做出更好的决策。这是由于深度学习方法的表示能力和深度RL代理的决策能力,可以学习适应不同的问题和实例特征。

常见的算子也给改了
在这里插入图片描述
状态空间

在这里插入图片描述
动作空间就是选择启发式

奖励函数 5310
在这里插入图片描述
这两篇的训练方法都是PPO

这篇关于ALNS的MDP模型| 还没整理完12-08的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/470007

相关文章

MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)

《MyBatis的xml中字符串类型判空与非字符串类型判空处理方式(最新整理)》本文给大家介绍MyBatis的xml中字符串类型判空与非字符串类型判空处理方式,本文给大家介绍的非常详细,对大家的学习或... 目录完整 Hutool 写法版本对比优化为什么status变成Long?为什么 price 没事?怎

Python按照24个实用大方向精选的上千种工具库汇总整理

《Python按照24个实用大方向精选的上千种工具库汇总整理》本文整理了Python生态中近千个库,涵盖数据处理、图像处理、网络开发、Web框架、人工智能、科学计算、GUI工具、测试框架、环境管理等多... 目录1、数据处理文本处理特殊文本处理html/XML 解析文件处理配置文件处理文档相关日志管理日期和

Python38个游戏开发库整理汇总

《Python38个游戏开发库整理汇总》文章介绍了多种Python游戏开发库,涵盖2D/3D游戏开发、多人游戏框架及视觉小说引擎,适合不同需求的开发者入门,强调跨平台支持与易用性,并鼓励读者交流反馈以... 目录PyGameCocos2dPySoyPyOgrepygletPanda3DBlenderFife

Python自动化批量重命名与整理文件系统

《Python自动化批量重命名与整理文件系统》这篇文章主要为大家详细介绍了如何使用Python实现一个强大的文件批量重命名与整理工具,帮助开发者自动化这一繁琐过程,有需要的小伙伴可以了解下... 目录简介环境准备项目功能概述代码详细解析1. 导入必要的库2. 配置参数设置3. 创建日志系统4. 安全文件名处

MySQL 迁移至 Doris 最佳实践方案(最新整理)

《MySQL迁移至Doris最佳实践方案(最新整理)》本文将深入剖析三种经过实践验证的MySQL迁移至Doris的最佳方案,涵盖全量迁移、增量同步、混合迁移以及基于CDC(ChangeData... 目录一、China编程JDBC Catalog 联邦查询方案(适合跨库实时查询)1. 方案概述2. 环境要求3.

SpringSecurity整合redission序列化问题小结(最新整理)

《SpringSecurity整合redission序列化问题小结(最新整理)》文章详解SpringSecurity整合Redisson时的序列化问题,指出需排除官方Jackson依赖,通过自定义反序... 目录1. 前言2. Redission配置2.1 RedissonProperties2.2 Red

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语