QUICK REVIEW

[论文解读] Solving NP-Hard Problems on Graphs with Extended AlphaGo Zero

Kenshin Abe, Zijian Xu|arXiv (Cornell University)|May 28, 2019

Reinforcement Learning in Robotics参考文献 32被引用 20

一句话总结

该论文提出 CombOpt Zero，一种受 AlphaGo Zero 启发的强化学习框架，用于更有效地求解 NP-难图问题，优于先前的方法。通过用蒙特卡洛树搜索（MCTS）替代 Q-learning，并利用随机采样对奖励进行归一化，该方法在不同类型的图上实现了更优的泛化能力与更高的样本效率，在 MaxCut 和最小点覆盖等问题上优于 S2V-DQN。

ABSTRACT

There have been increasing challenges to solve combinatorial optimization problems by machine learning. Khalil et al. proposed an end-to-end reinforcement learning framework, S2V-DQN, which automatically learns graph embeddings to construct solutions to a wide range of problems. To improve the generalization ability of their Q-learning method, we propose a novel learning strategy based on AlphaGo Zero which is a Go engine that achieved a superhuman level without the domain knowledge of the game. Our framework is redesigned for combinatorial problems, where the final reward might take any real number instead of a binary response, win/lose. In experiments conducted for five kinds of NP-hard problems including {\sc MinimumVertexCover} and {\sc MaxCut}, our method is shown to generalize better to various graphs than S2V-DQN. Furthermore, our method can be combined with recently-developed graph neural network (GNN) models such as the \emph{Graph Isomorphism Network}, resulting in even better performance. This experiment also gives an interesting insight into a suitable choice of GNN models for each task.

研究动机与目标

解决 S2V-DQN 在不同结构图（如真实世界图与合成图）上泛化能力差的问题，原因在于 Q-learning 中探索有限。
将 AlphaGo Zero 的基于 MCTS 的训练方法扩展至具有连续或实值奖励的组合优化问题，而不仅限于二元胜负结果。
通过在训练和推理过程中结合自对弈与树搜索，提升 NP-难图问题中的样本效率与解的质量。
研究 CombOpt Zero 与现代图神经网络（GNN）架构（如图同构网络）的兼容性。
证明该方法能够从在随机图上训练中隐式学习到有效的启发式策略，例如在树上求解 MaxCut 时的类似深度优先的着色策略。

提出的方法

用一种基于 AlphaGo Zero 的新型训练策略替代 S2V-DQN 的 Q-learning，利用蒙特卡洛树搜索（MCTS）生成自对弈轨迹。
通过随机采样对实值奖励进行归一化，将 AlphaGo Zero 的二元胜负框架适配至组合优化中常见的连续奖励设置。
将状态定义为当前标记的图，其通过选择动作（如节点着色或选择）而演化，状态转移受问题约束引导。
使用 GNN（如 S2V 或图同构网络）对当前图状态进行嵌入，并预测动作概率与价值估计。
通过自对弈与 MCTS 滚动更新策略与价值网络，基于最终奖励使用策略损失与价值损失进行网络更新。
在推理阶段启用 MCTS，以提升解的质量，并在某些问题上保证更优性能。

实验结果

研究问题

RQ1在深度强化学习框架中，基于 MCTS 的训练是否比 Q-learning 方法（如 S2V-DQN）在未见过的图类型上具有更好的泛化能力？
RQ2实值奖励的归一化对 AlphaGo Zero 风格训练在组合优化中的性能与稳定性有何影响？
RQ3将 CombOpt Zero 与先进 GNN（如图同构网络）结合后，解的质量与泛化能力提升程度如何？
RQ4该框架是否能通过在随机图上进行自对弈，隐式学习到问题特定的启发式策略（如在树上求解 MaxCut 时的深度优先着色）？
RQ5在相同硬件与时间预算下，CombOpt Zero 的样本效率与 S2V-DQN 相比如何？

主要发现

由于 MCTS 带来的增强探索，CombOpt Zero 在包括 Erdős–Rényi、Barabási–Albert 以及真实世界图在内的多种图类型上，泛化能力显著优于 S2V-DQN。
尽管在四张 GPU 上仅用 2 小时生成了 5,000 条轨迹，CombOpt Zero 仅用约 2,000 个数据样本即实现收敛，样本效率远超 S2V-DQN（后者需约 50,000 个样本）。
该方法在 MaxCut 上的性能与最先进启发式求解器相当，尤其在树结构上表现优异，能学习到类似深度优先搜索的最优双着色策略。
CombOpt Zero 的 MCTS 推理显著提升了某些问题的解质量，能保证优于贪心推理的结果。
将 CombOpt Zero 与图同构网络结合后，性能显著提升，凸显了 GNN 架构选择对特定任务的重要性。
可视化结果表明，CombOpt Zero 学会了对邻居节点交替着色，并能通过利用长距离信息传递（5 跳感受野）跳过邻居节点，表明其具备自适应与灵活的策略学习能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。