[论文解读] Learning 2-opt Heuristics for the Traveling Salesman Problem via Deep Reinforcement Learning
本文训练一个基于策略梯度的深度强化学习模型,用以学习 Euclidean TSP 的 2-opt 改进操作,采用指向注意力解码器和双编码器从随机起点获得接近最优的解。它展示了比先前的深度学习方法更快的收敛速度和更好的结果,并且能适应一般的 k-opt 操作。
Recent works using deep learning to solve the Traveling Salesman Problem (TSP) have focused on learning construction heuristics. Such approaches find TSP solutions of good quality but require additional procedures such as beam search and sampling to improve solutions and achieve state-of-the-art performance. However, few studies have focused on improvement heuristics, where a given solution is improved until reaching a near-optimal one. In this work, we propose to learn a local search heuristic based on 2-opt operators via deep reinforcement learning. We propose a policy gradient algorithm to learn a stochastic policy that selects 2-opt operations given a current solution. Moreover, we introduce a policy neural network that leverages a pointing attention mechanism, which unlike previous works, can be easily extended to more general k-opt moves. Our results show that the learned policies can improve even over random initial solutions and approach near-optimal solutions at a faster rate than previous state-of-the-art deep learning methods.
研究动机与目标
- 激发对 TSP 的改进启发式学习,聚焦于 2-opt 操作,而非构造启发式方法。
- 开发一个强化学习框架,学习用于选择 2-opt 操作来改进解的随机策略。
- 创建一个具有指向注意力机制的策略神经网络,能够扩展到一般的 k-opt 操作。
- 证明所学策略能够从较差的解出发,并且以远优于先前 DL 方法的速度接近最优地改进它们。
提出的方法
- 将 TSP 的 2-opt 改进形式化为一个马尔可夫决策过程(MDP),状态为 (current tour, best-so-far tour)。
- 使用策略梯度来学习一个关于 2-opt 操作的随机策略,采用基于优势的更新。
- 采用双编码器架构,结合 Graph Convolutional Network (GCN) 和顺序 RNN 编码来表示巡回路径和边。
- 通过指向注意力机制解码动作,输出可行的 2-opt 移动的节点索引,便于扩展到更高的 k-opt 移动。
- 采用类似 actor-critic 的目标函数进行训练,同时包含熵奖励以鼓励探索。
实验结果
研究问题
- RQ1学习得到的 2-opt 改进策略是否能够比先前的 DL 方法更高效地达到接近最优的 TSP 路线?
- RQ2双图-序列编码器再加上指向解码器在 Euclidean TSP 的 2-opt 移动上表现如何?
- RQ3学得的 2-opt 策略是否能从小型 TSP 实例泛化到更大实例,以及从随机初始解泛化?
- RQ4更长的 planning horizon(更长的 episode 长度)对策略性能有何影响?
主要发现
- 所学策略在随机初始巡回路径下,在 TSP 尺度为 (20, 50, 100) 节点时均能达到接近最优的解。
- 较长 episode 的策略通过考虑更长的规划时域提高了验证集表现。
- 在 TSP100 的 512 个测试实例上,该方法在解质量和稳定性方面超过了带重启的经典 2-opt 启发式以及许多先前的 DL 方法。
- 在 500、1000、和 2000 次采样步长下,该方法在比较中在 TSP20 上达到的 gap 为 0.01%、0.00%、0.00%,在 TSP50 上为 0.36%、0.21%、0.12%,在 TSP100 上为 1.84%、1.26%、0.87%。
- 该方法在样本效率方面优于先前的强化学习方法,且可适应一般的 k-opt 移动,同时保持具有竞争力的运行时间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。