QUICK REVIEW

[论文解读] Attention Solves Your TSP.

Wouter Kool, Max Welling|arXiv (Cornell University)|Mar 22, 2018

Advanced Neural Network Applications参考文献 11被引用 33

一句话总结

该论文提出了一种基于注意力机制的强化学习框架，用于求解二维欧几里得TSP问题，用纯图注意力架构替代Pointer Network，并通过REINFORCE算法与动态贪心基线进行训练。对于20个节点的TSP实例，其最优性差距降低了75%（降至0.33%）；对于50个节点的实例，最优性差距降低了50%（降至2.28%），显著优于以往基于学习的方法。

ABSTRACT

We propose a framework for solving combinatorial optimization problems of which the output can be represented as a sequence of input elements. As an alternative to the Pointer Network, we parameterize a policy by a model based entirely on (graph) attention layers, and train it efficiently using REINFORCE with a simple and robust baseline based on a deterministic (greedy) rollout of the best policy found during training. We significantly improve over state-of-the-art results for learning algorithms for the 2D Euclidean TSP, reducing the optimality gap for a single tour construction by more than 75% (to 0.33%) and 50% (to 2.28%) for instances with 20 and 50 nodes respectively.

研究动机与目标

为解决现有深度学习方法（特别是Pointer Network）在求解TSP问题时的局限性。
开发一种仅使用图注意力层进行策略参数化的模型，避免使用指针机制的自回归解码。
通过引入基于训练过程中所发现的最佳策略的贪心回溯的动态基线，提升强化学习在TSP问题上的样本效率与性能。
在仅进行最小架构修改的前提下，实现基于学习的TSP求解的最先进性能。

提出的方法

策略完全通过多头图注意力层进行参数化，实现对TSP路径序列生成的端到端学习。
使用带有优势估计的REINFORCE算法进行强化学习。
采用动态基线，持续维护训练过程中观察到的最佳策略，并利用其贪心回溯结果以降低策略梯度的方差。
在包含20个和50个节点的TSP实例大规模数据集上进行训练，奖励函数设计为路径长度的负值。
注意力机制计算节点的上下文感知表示，使模型能够在路径构建的每一步关注相关节点。
最终路径通过自回归方式生成，即关注当前节点和尚未访问的节点。

实验结果

研究问题

RQ1纯注意力架构是否能在学习求解TSP问题方面超越Pointer Network？
RQ2使用动态贪心基线是否能提升基于REINFORCE的TSP训练中的样本效率与性能？
RQ3自注意力机制在多大程度上能够捕捉TSP实例中的长距离依赖关系与结构模式？
RQ4与以往基于学习的方法相比，该方法在标准TSP基准测试中的最优性差距表现如何？
RQ5该模型是否能在不重新训练架构的前提下，泛化到不同大小的TSP实例？

主要发现

所提出的方法将20个节点TSP实例的最优性差距降低至0.33%，相比以往基于学习的方法改善了75%。
对于50个节点的TSP实例，最优性差距降低至2.28%，相比以往基于学习的方法改善了50%。
该模型仅使用注意力层与动态基线，即在20个和50个节点的TSP基准测试中达到最先进性能。
与静态基线或无基线的替代方案相比，动态基线显著提升了训练的稳定性和收敛速度。
注意力机制有效建模了节点间的关系，且无需依赖指针网络或循环结构。
该框架在不同实例大小间具有良好泛化能力，且无需重新训练架构即可保持高性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。