优秀论文推荐|突破传统局限!大连海事大学改进 DQN 算法开启船舶路径规划“智能新时代”

B站影视 韩国电影 2025-04-18 22:11 1

摘要:船舶在复杂海域航行时,路径规划是确保航行安全与经济性的关键环节。传统路径规划方法,如A*算法,虽在简单环境中表现良好,但在复杂海域面临效率低下、易陷入局部最优等问题。近年来,基于深度强化学习(DRL)的路径规划方法逐渐兴起,其中深度Q网络(DQN)算法因其结合

船舶在复杂海域航行时,路径规划是确保航行安全与经济性的关键环节。传统路径规划方法,如A*算法,虽在简单环境中表现良好,但在复杂海域面临效率低下、易陷入局部最优等问题。近年来,基于深度强化学习(DRL)的路径规划方法逐渐兴起,其中深度Q网络(DQN)算法因其结合深度学习的感知能力和强化学习的决策能力而备受关注。然而,DQN算法在经验回放时采用均匀随机采样,忽略样本重要性差异,导致学习效率低、网络易震荡。

为提升DQN算法在船舶路径规划中的性能,来自大连海事大学关巍教授等人提出了一种改进方法。该方法引入优先经验回放机制(PER),赋予重要样本更高权重,提升关键经验数据的采样率,从而加快学习速度并减少网络震荡。同时,通过决斗网络结构改进,将动作价值函数解耦为状态价值函数和优势函数两部分,以更准确地评估特定状态及其动作的价值。此外,加入噪声网络鼓励探索更多状态,增强算法的泛化能力和稳定性。

实验结果表明,在马尼拉附近海域环境下,改进的DQN算法相较于A*算法和传统DQN算法,在路径长度上分别缩短了1.9%和1.0%,拐点数量上分别减少了62.5%和25%。这表明改进的DQN算法能够更经济、合理地规划出有效路径,为船舶在复杂海域中的自主导航提供了更优的解决方案。

研究背景

自主路径规划技术是船舶自主导航的关键技术之一,其目标是为船舶快速、准确且合理地规划出一条安全可行的路径。传统的路径规划算法(如人工势场法、A*算法、RRT算法等)在处理复杂环境时存在规划效率低下甚至无法完成规划的局限性。基于生物学的智能仿生算法(如粒子群优化算法、蚁群算法和遗传算法等)虽然在处理复杂环境时有一定优势,但仍存在环境依赖性强、易陷入局部最优等问题。近年来,基于深度强化学习(DRL)的路径规划方法逐渐崭露头角,展现出一定的优越性。

研究方法

1. 改进DQN算法:

• 优先经验回放机制(PER):引入优先经验回放机制,赋予重要样本更高的权重,提升学习效率。通过基于排序的优先机制,按照时序误差绝对值大小对经验降序排序,并赋予其各自不同的优先级。

• 决斗网络:通过将动作值函数解耦为状态值函数(Value)和优势函数(Advantage),更加准确地评估特定状态及其对应动作的价值。

• 噪声网络:在神经网络中加入噪声,鼓励探索更多状态,提升网络模型在训练过程中的稳定性。

2. 实验设计:

• 状态空间设计:使用网格点的二维坐标描述环境中的状态,状态空间包括平面上船舶可能处于的所有位置。

• 动作空间设计:将船舶的运动离散化为8个航向,包括前进、后退、左移、右移、左前方移动、左后方移动、右前方移动和右后方移动。

• 奖励函数设计:设计了综合考虑距离目标点的欧氏距离、到达目标点的奖励和碰撞奖励以及最优路线奖励的奖励函数。

实验与结果

实验在马尼拉附近海域环境下进行,使用50×50的栅格地图进行仿真验证。实验结果表明:

• 路径长度:改进的DQN算法在路径长度上分别比A*算法和DQN算法缩短了1.9%和1.0%。

• 拐点数量:改进的DQN算法在拐点数量上分别比A*算法和DQN算法减少了62.5%和25%。

• 奖励值收敛曲线:改进的DQN算法在500轮后开始逐渐收敛,大约在700轮达到奖励的最大值;而DQN算法在800轮开始收敛,大约在1100轮完成收敛。改进的DQN算法在训练过程中奖励值的波动范围较小,表明其对参数扰动的容忍度更高。

研究结论

改进的DQN算法通过优先经验回放机制、决斗网络和噪声网络的改进,显著提升了路径规划的效率和精度。在路径长度和拐点数量上优于传统的DQN算法和A*算法,表现出更好的经济性和安全性。此外,该算法在其他海域环境下的实验也验证了其普适性。未来的研究将进一步改进算法,使其在含有动态障碍物的环境下仍能规划出较优的路径。

典型会遇局面情况分类

获取更多精彩内容,请点击以下原文链接查看

基于改进DQN算法的船舶全局路径规划研究

3866

中国舰船研究

Chinese Journal of Ship Research

欢迎分享到朋友圈✬ 评论功能现已开启, 接受一切形式的吐槽和赞美

来源:中国舰船研究

相关推荐