深度强化学习的变道策略：Harmonious Lane Changing via Deep Reinforcement Learning

本文主要是介绍深度强化学习的变道策略：Harmonious Lane Changing via Deep Reinforcement Learning，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

偏理论，假设情况不易发生

摘要

多智能体强化学习的换道策略，不同的智能体在每一轮学习后交换策略，达到零和博弈。

和谐驾驶仅依赖于单个车辆有限的感知结果来平衡整体和个体效率，奖励机制结合个人效率和整体效率的和谐。

Ⅰ. 简介

自动驾驶不能过分要求速度性能，

考虑单个车辆的厌恶和所在路段的整体交通效率的奖励函数，适当的混合以提高整体的交通效率。

章节安排：

简介
和谐变道的深度强化学习模型
模拟器设计
实验设置和所提出的策略在训练和测试中的仿真结果
模型的一些有趣问题
总结

Ⅱ. 协调换道的深度强化学习模型

A. 问题呈现和DRL模型

1）状态空间：

每个车辆的状态由：三个连续帧的交通快照和实际速度与预期速度之间的相应速度差组成。

拍摄交通快照来研究车辆周围的情况。

$M_t^{(i)}$ 用二维矩阵表示车辆周围的占有网格（存在车辆的网格为1，空网格为0）

S被输入到DQN。

2）动作空间：

$a_t^{(i)}$ 为车辆i的动作，包括改变到左/右道路和保持当前车道。

减速不在当前中，设置了单独的碰撞检查过程修改速度。

3）奖励函数：

$r_t^{(i)}$ 车辆行驶效率，与其他车辆的协调性和总体交通流率之间的权衡。

$r_v^{(i)}$ 是车辆个体形式效率的奖励， $r_{cl}^{(i)}$ 是变道的惩罚， $r_q$ 是交通流率的奖励。

${\alpha}$ 是换道行为的协调系数。

频繁变道会使得交通流率下降，对于每个换道行为我们从奖励中减去 ${\alpha}$ 来作为惩罚。

大 ${\alpha}$ 使得车辆学习一个温和的变道策略，限制不必要的变道。

${q_t}$ 是所研究车辆周围的流量

$R_{scale}$ 是一个缩放系数保持 $r_q$ 的幅度和 $r_v^{(i)}$ 和 $r_{cl}^{(i)}$ 的一致性。

B. 深度强化学习算法

DQN学习有效的变道决策机制，输入 $s_t^{(i)}$ 到DQN，输出 $a_t^{(i)}$ 。

代理的经验存储在数据集 ${D_t}$

在学习模型时，从Dt中均匀抽取样本以计算以下损失函数（TD误差），随机梯度下降更新参数

基于DQN Q值的贪婪策略选择并执行策略。

每个仿真车辆共享一个共同的RL模型作为上层决策者，并为自己维护一个低层运动控制器。

变道决策DQN

快照进入两层CNN，然后通过级联层与速度差级联。

将数据送入两层全连接Q网络，得到a作为高级驾驶策略

送到低级控制器，用于每个车辆的低级运动命令

更深层的深度强化学习没有获得更好的效果

Ⅲ. 仿真平台

平台流水线概括为以下：

根据上游流入率在道路起点生成新车辆。
从所提出的换道模型中获取环境数据并得到驾驶决策。
计算每辆车的适当速度，并执行驾驶决策。
1. 在每次迭代中，纵向速度和横向速度，t将分别由车辆跟随模型和车道变换模型计算。
执行碰撞检查过程并更新所有车辆的位置。
1. 在步骤4）中将执行碰撞检查过程，以修改纵向速度以确保安全。

问题

多智能体每轮学习后交换策略。

个人效率和整体效率的和谐。

这篇关于深度强化学习的变道策略：Harmonious Lane Changing via Deep Reinforcement Learning的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

深度强化学习的变道策略：Harmonious Lane Changing via Deep Reinforcement Learning

摘要

Ⅰ. 简介

Ⅱ. 协调换道的深度强化学习模型

A. 问题呈现和DRL模型

1）状态空间：

2）动作空间：

3）奖励函数：

B. 深度强化学习算法

Ⅲ. 仿真平台

问题

相关文章

深度解析Python中递归下降解析器的原理与实现

深度解析Java @Serial 注解及常见错误案例

Java MCP 的鉴权深度解析

Maven中生命周期深度解析与实战指南

深度剖析SpringBoot日志性能提升的原因与解决

Unity新手入门学习殿堂级知识详细讲解（图文）

深度解析Python yfinance的核心功能和高级用法

MySQL设置密码复杂度策略的完整步骤(附代码示例)

Python学习笔记之getattr和hasattr用法示例详解

深度解析Spring Security 中的 SecurityFilterChain核心功能