[论文解读] Learning Combinatorial Optimization Algorithms over Graphs
这篇论文提出 S2V-DQN,是一个框架,通过将强化学习与图嵌入相结合,学习图基NP-hard优化问题的贪心启发式方法,能够对问题类型和规模进行泛化。
The design of good heuristics or approximation algorithms for NP-hard combinatorial optimization problems often requires significant specialized knowledge and trial-and-error. Can we automate this challenging, tedious process, and learn the algorithms instead? In many real-world applications, it is typically the case that the same optimization problem is solved again and again on a regular basis, maintaining the same problem structure but differing in the data. This provides an opportunity for learning heuristic algorithms that exploit the structure of such recurring problems. In this paper, we propose a unique combination of reinforcement learning and graph embedding to address this challenge. The learned greedy policy behaves like a meta-algorithm that incrementally constructs a solution, and the action is determined by the output of a graph embedding network capturing the current state of the solution. We show that our framework can be applied to a diverse range of optimization problems over graphs, and learns effective algorithms for the Minimum Vertex Cover, Maximum Cut and Traveling Salesman problems.
研究动机与目标
- 推动对重复出现的图优化问题的启发式方法的自动化设计。
- 提出一个贪心元算法,其行动由图嵌入网络决定。
- 开发一个端到端学习框架,通过强化学习优化原始问题目标。
- 在多个经典问题上展示对问题规模和图类型的泛化能力。
- 表明学习得到的启发式方法在合成数据和真实世界数据集上均能超越传统方法。
提出的方法
- 在图上用状态 S 和候选行动 V\\S 来形式化贪心算法。
- 用图嵌入网络 Structure2Vec 表示策略,以生成节点嵌入。
- 将 Q 函数 fici_e ntly 作为 AQ(h(S),v;Θ) 的参数化,使用节点和图嵌入进行参数化。
- 通过 n-step Q-learning 和 fitted Q-iteration 进行端到端训练,以处理延迟奖励。
- 将该框架应用于 MVC、MAXCUT 和 TSP,并与 PN-AC 及经典启发式方法进行比较。
- 证明可扩展性和对比训练数据更大图的泛化能力。
实验结果
研究问题
- RQ1学习得到的贪心策略是否能推广到来自同一分布的未见图实例?
- RQ2将图结构嵌入与强化学习结合,是否能为 MVC、MAXCUT 和 TSP 提供有效的启发式方法?
- RQ3在合成和真实世界图上,学习方法与手工设计的启发式方法及先前的神经方法相比如何?
- RQ4学习到的策略是否能扩展到比训练时看到的图更大的规模?
主要发现
- S2V-DQN 在 MVC、MAXCUT 和 TSP 的平均近似比上显著优于竞争方法。
- 在 MVC 上,S2V-DQN 的近似比接近 1,接近最优性能。
- 在用较小图进行训练时,S2V-DQN 能很好地泛化到多达 1200 节点的图。
- 该方法保持多项式时间复杂度 O(k|E|) 的效率,在大图上具有竞争力的运行时间。
- 真实世界数据集显示 S2V-DQN 相对于最佳竞争对手有显著优势(例如 MVC MemeTracker、MAXCUT Physics、TSP TSPLIB)。
- 学习得到的策略展示了为 MVC 和 MAXCUT 发掘出合理新启发式方法的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。