Skip to main content
QUICK REVIEW

[论文解读] Neural Combinatorial Optimization with Reinforcement Learning

Irwan Bello, Hieu Pham|arXiv (Cornell University)|Nov 29, 2016
Metaheuristic Optimization Algorithms Research被引用 278
一句话总结

本论文提出了神经组合优化,使用基于指针网络的策略,通过强化学习(策略梯度)训练,在二维欧几里得图的 TSP 和背包问题上求解,结合预训练和主动搜索策略取得近似最优结果。结果表明基于 RL 的方法优于监督学习方法,并引入推理时的搜索变体以提升解的质量。

ABSTRACT

This paper presents a framework to tackle combinatorial optimization problems using neural networks and reinforcement learning. We focus on the traveling salesman problem (TSP) and train a recurrent network that, given a set of city coordinates, predicts a distribution over different city permutations. Using negative tour length as the reward signal, we optimize the parameters of the recurrent network using a policy gradient method. We compare learning the network parameters on a set of training graphs against learning them on individual test graphs. Despite the computational expense, without much engineering and heuristic designing, Neural Combinatorial Optimization achieves close to optimal results on 2D Euclidean graphs with up to 100 nodes. Applied to the KnapSack, another NP-hard problem, the same method obtains optimal solutions for instances with up to 200 items.

研究动机与目标

  • 推动一种可以跨问题规模泛化的基于学习的组合优化方法。
  • 开发一种神经网络架构,能够在没有 ground-truth 标签的情况下输出有效的排列。
  • 在二维欧几里得 TSP 和背包问题上证明有效性,并与经典求解器比较。
  • 探索训练策略(RL 预训练与主动搜索)以提高解的质量。

提出的方法

  • 使用带有编码器-解码器 LSTM 的指针网络以及基于注意力的指向机制来建模 p(pi|s)。
  • 通过 p(pi(i)|pi(<i),s) 使用非参数化的 softmax 模块(指针网络)来分解巡回概率。
  • 用策略梯度(REINFORCE)进行训练,通过基线来降低方差,以最小化期望巡回长度。
  • 引入一个评估者(基线网络)来估计给定输入的期望巡回长度并指导学习(演员-评估者)。
  • 在推理时采用两种搜索策略:从随机策略中采样,以及在单个测试实例上更新策略参数的主动搜索过程。
  • 讨论对其他问题的泛化,并以背包问题作为案例研究进行说明。

实验结果

研究问题

  • RQ1带指针结构的神经网络是否能够在没有监督的最优标签情况下学习出良好的组合优化启发式?
  • RQ2在 TSP 和背包问题上,带有预训练加主动搜索的强化学习是否优于监督学习基线?
  • RQ3哪些有效的推理时策略可以缩小与最优解的差距?
  • RQ4该方法对于超过训练实例规模的可变问题规模的泛化能力如何?
  • RQ5通过改变奖励与可行性处理,是否可以将该框架适配到其他组合任务?

主要发现

  • 基于 RL 的训练在 TSP 上显著优于监督学习,相比前期资料。
  • 在足够的计算资源下,该方法在二维欧几里得 TSP 图(最多 100 个节点)上接近最优结果。
  • 应用于背包问题,该方法在最多 200 个物品的实例中达到最优解。
  • 主动搜索和 RL 预训练-采样是最具竞争力的推理策略,在速度与解质量之间存在权衡。
  • 贪心解码速度快但效果较差;采样和主动搜索在额外计算下可以得到近似最优的路线。
  • 推理时搜索可以提前停止,在牺牲极小的解质损失的情况下实现更快的运行时间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。