[论文解读] Attention, Learn to Solve Routing Problems!
论文提出一个基于注意力的编码-解码模型,使用 REINFORCE 结合一个贪婪滚动基线来学习路由问题的启发式方法,在单一超参数集下对 TSP、VRP 变体、OP、PCTSP 和 SPCTSP 取得了强劲结果。
The recently presented idea to learn heuristics for combinatorial optimization problems is promising as it can save costly development. However, to push this idea towards practical implementation, we need better models and better ways of training. We contribute in both directions: we propose a model based on attention layers with benefits over the Pointer Network and we show how to train this model using REINFORCE with a simple baseline based on a deterministic greedy rollout, which we find is more efficient than using a value function. We significantly improve over recent learned heuristics for the Travelling Salesman Problem (TSP), getting close to optimal results for problems up to 100 nodes. With the same hyperparameters, we learn strong heuristics for two variants of the Vehicle Routing Problem (VRP), the Orienteering Problem (OP) and (a stochastic variant of) the Prize Collecting TSP (PCTSP), outperforming a wide range of baselines and getting results close to highly optimized and specialized algorithms.
研究动机与目标
- 激励学习用于组合路由问题的启发式方法,以减少对手工设定求解器的依赖。
- 提出一个基于注意力的编码器-解码器架构,相较于以往的学习启发式方法在路由任务上有所改进。
- 展示使用 REINFORCE 与简单的贪婪滚动基线的训练效果。
- 通过解决 TSP、VRP 变体、 Orienteering Problem、Prize Collecting TSP 以及随机变体,展示广泛适用性并达到有竞争力的性能。
提出的方法
- 使用基于注意力的编码器从图结构输入中生成节点嵌入。
- 采用类似 Transformer 的解码器逐步输出置换(巡线)并使用可行性屏蔽策略。
- 使用基于当前最佳策略的确定性贪婪解作为滚 rollout 基线来降低梯度方差进行 REINFORCE 训练。
- 在 logits 计算时采用轻量且高效的解码策略,包含上下文节点和单头注意力。
- 跨多种路由问题以固定超参数进行批量训练,以展示方法的泛化能力。
实验结果
研究问题
- RQ1一个基于注意力的模型是否能在单一超参数集下学习到在多种路由问题上的有效路由启发式?
- RQ2使用贪婪滚动基线的 REINFORCE 训练是否比基于值函数的评论家在路由任务上获得更稳定、有效的学习?
- RQ3在实用规模下, learned 启发式能否接近对 TSP、VRP 变体、OP 和 PCTSP(包括随机变动) 的专业化或精确求解器?
- RQ4所提出的架构选择(编码器/解码器、屏蔽、上下文节点)在性能和可扩展性方面的影响程度?
- RQ5在问题规模(n 高达 100)和各种问题类型上,学习得到的策略是否无需针对具体问题调优就具鲁棒性?
主要发现
- 注意力模型在 TSP 的结果显著优于先前的学习启发式,覆盖到 100 节点,某些实例接近最优。
- 在相同超参数下,该模型对 VRP 变体、Orienteering Problem 和随机 PCTSP 学习出强启发式,超越多样的基线。
- REINFORCE 与简单贪婪滚动基线提供高效的训练,与 actor-critic 方法相比具有竞争力。
- 该方法在多种路由问题上具有泛化性,表明单一学习启发式族在实际路由任务中的可行性。
- 贪婪解码和采样策略在解决质量与运行时间之间提供灵活的权衡,通常在实践中优于若干非学习基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。