Skip to main content
QUICK REVIEW

[论文解读] Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Sahil Manchanda, Akash Mittal|arXiv (Cornell University)|Mar 8, 2019
Advanced Graph Neural Networks参考文献 40被引用 70
一句话总结

GCOMB 将基于修剪的图卷积网络与 Q-learning 模块相结合,以学习可扩展的启发式方法,适用于图上预算受限的集合问题,在影响最大化等任务中实现巨量的速度提升,同时保持或提高解质量。

ABSTRACT

There has been an increased interest in discovering heuristics for combinatorial problems on graphs through machine learning. While existing techniques have primarily focused on obtaining high-quality solutions, scalability to billion-sized graphs has not been adequately addressed. In addition, the impact of budget-constraint, which is necessary for many practical scenarios, remains to be studied. In this paper, we propose a framework called GCOMB to bridge these gaps. GCOMB trains a Graph Convolutional Network (GCN) using a novel probabilistic greedy mechanism to predict the quality of a node. To further facilitate the combinatorial nature of the problem, GCOMB utilizes a Q-learning framework, which is made efficient through importance sampling. We perform extensive experiments on real graphs to benchmark the efficiency and efficacy of GCOMB. Our results establish that GCOMB is 100 times faster and marginally better in quality than state-of-the-art algorithms for learning combinatorial algorithms. Additionally, a case-study on the practical combinatorial problem of Influence Maximization (IM) shows GCOMB is 150 times faster than the specialized IM algorithm IMM with similar quality.

研究动机与目标

  • 在大规模图上激发学习有效启发式方法来解决 NP-hard 组合问题。
  • 开发可处理十亿规模图的可扩展框架。
  • 将监督式修剪与强化学习相结合,以将计算聚焦于有前景的节点。
  • 在包括 Influence Maximization (IM) 在内的多种预算受限问题上展示有效性。
  • 展示相对于先前基于学习的方法的实际可扩展性优势。

提出的方法

  • 两阶段架构:用于修剪和嵌入优质节点的 Graph Convolutional Network (GCN),随后是用于选择最终解集的 Q-learning 模块。
  • 概率贪婪采样以生成多样化的训练解,并通过边际增益获得节点质量分数。
  • 使用第一层 GCN 特征的轻量级噪声预测器在进行昂贵计算之前修剪噪声节点。
  • 将状态设为候选集合,动作为节点添加,奖励等于目标的边际增益的 Q-learning 公式。
  • 通过重要性抽样实现高效的局部性估计,以降低计算节点局部性的成本。
  • 训练将监督学习(节点质量预测)与强化学习(最优节点选择)结合起来。
  • 推断在修剪后的候选集合上通过 GCN 进行单次前向传播,然后进行 Q-learning。

实验结果

研究问题

  • RQ1混合监督学习和强化学习框架是否能够扩展到十亿规模的图,同时解决预算受限的集合组合问题?
  • RQ2在端到端方法之上,修剪噪声节点并将强化学习聚焦于高质量候选者,是否能够提升可扩展性和解的质量?
  • RQ3与最先进的学习和非学习基线相比,GCOMB 在不同问题实例(IM、MCP、MVC)上的表现如何?
  • RQ4在使用概率贪婪训练和重要性采样时,精度与速度之间的权衡如何?

主要发现

  • GCOMB 比最先进的基于学习的方法快得多(高达 100 倍),并且通常能产生更高质量的解。
  • 在 Influence Maximization 的案例研究中,GCOMB 比 IMM 快约 150 倍,解的质量相当。
  • 与 S2V-DQN 和 GCN-TreeSearch 相比,GCOMB 提供略优或具有竞争力的质量,同时具有显著更好的可扩展性。
  • 重要性采样和噪声预测器在不牺牲且常常提高解质量的情况下,显著降低了计算时间。
  • GCOMB 在现实世界的十亿规模图上仍然有效,而竞争方法难以扩展。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。