Skip to main content
QUICK REVIEW

[论文解读] Solving NP-Hard Problems on Graphs with Extended AlphaGo Zero

Kenshin Abe, Zijian Xu|arXiv (Cornell University)|May 28, 2019
Reinforcement Learning in Robotics参考文献 32被引用 20
一句话总结

该论文提出 CombOpt Zero,一种受 AlphaGo Zero 启发的强化学习框架,用于更有效地求解 NP-难图问题,优于先前的方法。通过用蒙特卡洛树搜索(MCTS)替代 Q-learning,并利用随机采样对奖励进行归一化,该方法在不同类型的图上实现了更优的泛化能力与更高的样本效率,在 MaxCut 和最小点覆盖等问题上优于 S2V-DQN。

ABSTRACT

There have been increasing challenges to solve combinatorial optimization problems by machine learning. Khalil et al. proposed an end-to-end reinforcement learning framework, S2V-DQN, which automatically learns graph embeddings to construct solutions to a wide range of problems. To improve the generalization ability of their Q-learning method, we propose a novel learning strategy based on AlphaGo Zero which is a Go engine that achieved a superhuman level without the domain knowledge of the game. Our framework is redesigned for combinatorial problems, where the final reward might take any real number instead of a binary response, win/lose. In experiments conducted for five kinds of NP-hard problems including {\sc MinimumVertexCover} and {\sc MaxCut}, our method is shown to generalize better to various graphs than S2V-DQN. Furthermore, our method can be combined with recently-developed graph neural network (GNN) models such as the \emph{Graph Isomorphism Network}, resulting in even better performance. This experiment also gives an interesting insight into a suitable choice of GNN models for each task.

研究动机与目标

  • 解决 S2V-DQN 在不同结构图(如真实世界图与合成图)上泛化能力差的问题,原因在于 Q-learning 中探索有限。
  • 将 AlphaGo Zero 的基于 MCTS 的训练方法扩展至具有连续或实值奖励的组合优化问题,而不仅限于二元胜负结果。
  • 通过在训练和推理过程中结合自对弈与树搜索,提升 NP-难图问题中的样本效率与解的质量。
  • 研究 CombOpt Zero 与现代图神经网络(GNN)架构(如图同构网络)的兼容性。
  • 证明该方法能够从在随机图上训练中隐式学习到有效的启发式策略,例如在树上求解 MaxCut 时的类似深度优先的着色策略。

提出的方法

  • 用一种基于 AlphaGo Zero 的新型训练策略替代 S2V-DQN 的 Q-learning,利用蒙特卡洛树搜索(MCTS)生成自对弈轨迹。
  • 通过随机采样对实值奖励进行归一化,将 AlphaGo Zero 的二元胜负框架适配至组合优化中常见的连续奖励设置。
  • 将状态定义为当前标记的图,其通过选择动作(如节点着色或选择)而演化,状态转移受问题约束引导。
  • 使用 GNN(如 S2V 或图同构网络)对当前图状态进行嵌入,并预测动作概率与价值估计。
  • 通过自对弈与 MCTS 滚动更新策略与价值网络,基于最终奖励使用策略损失与价值损失进行网络更新。
  • 在推理阶段启用 MCTS,以提升解的质量,并在某些问题上保证更优性能。

实验结果

研究问题

  • RQ1在深度强化学习框架中,基于 MCTS 的训练是否比 Q-learning 方法(如 S2V-DQN)在未见过的图类型上具有更好的泛化能力?
  • RQ2实值奖励的归一化对 AlphaGo Zero 风格训练在组合优化中的性能与稳定性有何影响?
  • RQ3将 CombOpt Zero 与先进 GNN(如图同构网络)结合后,解的质量与泛化能力提升程度如何?
  • RQ4该框架是否能通过在随机图上进行自对弈,隐式学习到问题特定的启发式策略(如在树上求解 MaxCut 时的深度优先着色)?
  • RQ5在相同硬件与时间预算下,CombOpt Zero 的样本效率与 S2V-DQN 相比如何?

主要发现

  • 由于 MCTS 带来的增强探索,CombOpt Zero 在包括 Erdős–Rényi、Barabási–Albert 以及真实世界图在内的多种图类型上,泛化能力显著优于 S2V-DQN。
  • 尽管在四张 GPU 上仅用 2 小时生成了 5,000 条轨迹,CombOpt Zero 仅用约 2,000 个数据样本即实现收敛,样本效率远超 S2V-DQN(后者需约 50,000 个样本)。
  • 该方法在 MaxCut 上的性能与最先进启发式求解器相当,尤其在树结构上表现优异,能学习到类似深度优先搜索的最优双着色策略。
  • CombOpt Zero 的 MCTS 推理显著提升了某些问题的解质量,能保证优于贪心推理的结果。
  • 将 CombOpt Zero 与图同构网络结合后,性能显著提升,凸显了 GNN 架构选择对特定任务的重要性。
  • 可视化结果表明,CombOpt Zero 学会了对邻居节点交替着色,并能通过利用长距离信息传递(5 跳感受野)跳过邻居节点,表明其具备自适应与灵活的策略学习能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。