QUICK REVIEW

[论文解读] Learning Improvement Heuristics for Solving Routing Problems

Yaoxin Wu, Wen Song|arXiv (Cornell University)|Dec 12, 2019

Vehicle Routing Optimization Methods参考文献 48被引用 49

一句话总结

本文训练了基于自注意力的强化学习策略，以学习路由问题的改进启发式，对比先前的 DL 基方法在 TSP 和 CVRP 上表现更优，并且在规模和数据集之间具备泛化能力。

ABSTRACT

Recent studies in using deep learning to solve routing problems focus on construction heuristics, the solutions of which are still far from optimality. Improvement heuristics have great potential to narrow this gap by iteratively refining a solution. However, classic improvement heuristics are all guided by hand-crafted rules which may limit their performance. In this paper, we propose a deep reinforcement learning framework to learn the improvement heuristics for routing problems. We design a self-attention based deep architecture as the policy network to guide the selection of next solution. We apply our method to two important routing problems, i.e. travelling salesman problem (TSP) and capacitated vehicle routing problem (CVRP). Experiments show that our method outperforms state-of-the-art deep learning based approaches. The learned policies are more effective than the traditional hand-crafted ones, and can be further enhanced by simple diversifying strategies. Moreover, the policies generalize well to different problem sizes, initial solutions and even real-world dataset.

研究动机与目标

通过学习改进算子，推动路由问题解的改进超越构造启发式。
提出一个直接学习在邻域搜索中选择下一个改进的策略的 RL 框架。
开发基于自注意力的策略网络，以处理像 2-opt 和节点交换等的成对局部算子。
将该框架应用于 TSP 和 CVRP，并与最先进的基线进行比较。
展示对不同问题规模、初始解以及真实世界数据集的泛化能力。

提出的方法

将改进启发式形式化为一个持续的 MDP，状态为当前解，动作为应用成对算子节点对。
奖励是迄今为止找到的最佳在场解的增量改进，鼓励持续优化。
使用基于自注意力的策略网络来计算选择要操作的节点对的概率矩阵，包含节点嵌入和节点对选择模块。
在节点嵌入中，结合位置编码和自注意力以捕捉序列信息。
在节点对选择中，将全局图信息与节点嵌入融合，并对可行对应用屏蔽的 softmax。
使用行为者-评论家算法（带引导的 REINFORCE）进行训练，使用 n 步返回和持续任务设置。

实验结果

研究问题

RQ1在路由问题的邻域搜索中，学习得到的改进启发式策略是否能够超越手工设计的规则？
RQ2基于自注意力的策略在不同问题规模和初始解下对 TSP 和 CVRP 的泛化能力如何？
RQ3学习得到的改进策略是否能迁移到超出合成实例的真实世界数据集？
RQ4不同成对算子（如 2-opt、节点交换）对学习策略的性能有何影响？
RQ5简单的多样化策略是否能进一步提升学习策略产生的解质量？

主要发现

学习得到的改进策略在 TSP 和 CVRP 上显著优于最先进的 DL 基方法。
从 RL 框架学习的策略在不同实例规模上打败了传统的手工规则（首次改进和最好改进）。
增大允许步数上限 T 会缩小最优性差距，在小尺寸 TSP 实例上接近 Concorde 的质量，在较大 CVRP 实例上也优于若干基线。
该方法在运行时间上与其他基于 DL 的方法具有竞争力，并且在问题规模扩展方面比某些基线显示更好的可扩展性。
通过多次运行或多策略策略实现多样化进一步提升解的质量，在固定运行次数下，多次运行通常比多策略带来更强的增益。
策略对不同问题规模、初始解和真实世界数据集具备泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。