[论文解读] The Transformer Network for the Traveling Salesman Problem
该论文将 Transformer 架构应用于通过强化学习解决 TSP,在 TSP50 和 TSP100 上通过束搜索/解码策略获得具有竞争力的结果和较小的最优间隙。
The Traveling Salesman Problem (TSP) is the most popular and most studied combinatorial problem, starting with von Neumann in 1951. It has driven the discovery of several optimization techniques such as cutting planes, branch-and-bound, local search, Lagrangian relaxation, and simulated annealing. The last five years have seen the emergence of promising techniques where (graph) neural networks have been capable to learn new combinatorial algorithms. The main question is whether deep learning can learn better heuristics from data, i.e. replacing human-engineered heuristics? This is appealing because developing algorithms to tackle efficiently NP-hard problems may require years of research, and many industry problems are combinatorial by nature. In this work, we propose to adapt the recent successful Transformer architecture originally developed for natural language processing to the combinatorial TSP. Training is done by reinforcement learning, hence without TSP training solutions, and decoding uses beam search. We report improved performances over recent learned heuristics with an optimal gap of 0.004% for TSP50 and 0.39% for TSP100.
研究动机与目标
- 激发探索神经 Transformer 于组合优化,特别是 TSP。
- 开发面向 TSP 的 Transformer 编码器/自回归解码器架构。
- 在不需要 TSP 解作为监督的情况下,用强化学习训练模型。
- 评估解码策略(贪心、束搜索)并与传统求解器和学习到的启发式方法进行比较。
提出的方法
- 将 TSP 视为从城市坐标到有序旅程的翻译问题。
- 使用带批量归一化的 Transformer 编码器处理城市嵌入;解码器自回归地生成带起始标记的旅程。
- 在解码中,构建基于查询注意力的步骤,使用编码后的城市表示选择下一个未访问的城市。
- 用策略梯度强化学习训练;以旅程长度作为奖励,训练过程中更新基线。
- 使用采样和束搜索进行解码;从 softmax 分布采样下一个城市,或选择最佳旅程的前束。
实验结果
研究问题
- RQ1一个 Transformer 架构是否能够通过强化学习学习到有效的 TSP 启发式,而无需有监督的 TSP 解?
- RQ2该基于 Transformer 的 TSP 求解器在标准 TSP 实例(如 n=50,100)上与经典求解器和先前学习到的启发式方法相比如何?
- RQ3哪些解码策略(贪心、束搜索、采样)在解的质量与推断时间之间达到最佳折衷?
- RQ4哪些架构选择(BN 与 LN、编码器/解码器设计)会影响将 TSP 作为序列生成任务的性能?
主要发现
- 基于 Transformer 的求解器在最近的学习到的启发式方法上取得改进,在 TSP50 的最优间隙为 0.004%,在 TSP100 为 0.39%(如文中所述)。
- 在 TSP50 上,模型在 13.7 秒总时长内实现目标约为 5.707,间隙 0.31%(考虑束/解码);在 TSP100 上,目标约 7.875,间隙 1.42%,用时 4.6 秒。
- 该方法使用带批量归一化的 Transformer 编码器和一个专门的自回归解码器,包含起始标记和用于旅程排序的位置编码。
- 束搜索和采样策略被讨论为相较于以前工作中的贪心解码的改进,并用于提升结果。
- 与 Concorde 及其他求解器相比,神经方法在推断时间上更有优势且间隙具有竞争力,而传统求解器在某些情况下仍能提供最优或更强的解。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。