QUICK REVIEW

[论文解读] NeuroLKH: Combining Deep Learning Model with Lin-Kernighan-Helsgaun Heuristic for Solving the Traveling Salesman Problem

Liang Xin, Wen Song|arXiv (Cornell University)|Oct 15, 2021

Vehicle Routing Optimization Methods参考文献 34被引用 44

一句话总结

NeuroLKH 将稀疏图网络与 Lin-Kernighan-Helsgaun 求解器相结合，以学习边得分和节点惩罚，从而引导 LKH 改进 TSP 求解，并扩展到相关的路径规划问题。

ABSTRACT

We present NeuroLKH, a novel algorithm that combines deep learning with the strong traditional heuristic Lin-Kernighan-Helsgaun (LKH) for solving Traveling Salesman Problem. Specifically, we train a Sparse Graph Network (SGN) with supervised learning for edge scores and unsupervised learning for node penalties, both of which are critical for improving the performance of LKH. Based on the output of SGN, NeuroLKH creates the edge candidate set and transforms edge distances to guide the searching process of LKH. Extensive experiments firmly demonstrate that, by training one model on a wide range of problem sizes, NeuroLKH significantly outperforms LKH and generalizes well to much larger sizes. Also, we show that NeuroLKH can be applied to other routing problems such as Capacitated Vehicle Routing Problem (CVRP), Pickup and Delivery Problem (PDP), and CVRP with Time Windows (CVRPTW).

研究动机与目标

激发并解决在 LKH 中纯手工设计的边候选集及逐实例子梯度优化的局限性。
开发一个基于学习的模块（SGN），为 TSP 实例生成边得分和节点惩罚。
通过通过学习的惩罚转换边距离并细化候选边，实现在对 LKH 的快速、泛化引导。
展示在不同规模和分布下相较于 LKH 和 VSR-LKH 的显著性能提升，并扩展到 CVRP、PDP 和 CVRPTW。

提出的方法

将 TSP 实例表示为稀疏有向图，并应用稀疏图网络（SGN）来产生边得分和节点惩罚。
使用最优回路边作为目标，通过监督学习训练边得分。
通过无监督学习训练节点惩罚，使最小 1-Tree 的度数朝向 2，类似子梯度优化。
通过学习的惩罚将边距离转换为 cij = sij + pi + pj，保留最优回路，但改善搜索引导。
基于学习的边得分为每个节点创建边候选集，以引导 LKH 的 lambda-opt 搜索。
通过多次 LKH 试验求解，其中 SGN 输出引导距离转换和候选集，降低每实例优化时间。

实验结果

研究问题

RQ1一个学习模型是否能产生比传统 LKH 生成的集合更高质量的边候选集？
RQ2边得分与节点惩罚的同时学习是否能在不同规模和分布的 TSP 实例上实现泛化？
RQ3将 SGN 指导的距离转换与 LKH 集成是否能提升解的质量和运行时间，特别是对大规模问题？
RQ4NeuroLKH 能否有效扩展到相关的路由问题，如 CVRP、PDP 和 CVRPTW？
RQ5快速 SGN 推断相对于传统 LKH 子梯度优化对整体性能的影响是什么？

主要发现

NeuroLKH 在训练规模（100、200、500 节点）和时间限制下显著优于 LKH 和 VSR-LKH，显著减少最优性差距。
在一系列规模上训练的单一 SGN 可以泛化到更大规模的问题（1000、2000、5000 节点），并可快速微调节点惩罚。
SGN 推断时间大致随问题规模线性增长（在 100-5000 节点时为 3s 到 208s），而 LKH 子梯度优化时间呈现非线性增长，使 NeuroLKH 在时间有限的情况下尤为有利。
NeuroLKH 对 TSPLIB 欧几里得实例泛化良好，在许多情况下比 LKH 更频繁地解决难解实例，并在较大分布上对混合训练模型（NeuroLKH_M）显示出强结果。
NeuroLKH 可以通过学习边候选集扩展到 CVRP、PDP 和 CVRPTW（这些问题不适用节点惩罚）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。