Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Sahil Manchanda, Akash Mittal|arXiv (Cornell University)|2019. 03. 08.
Advanced Graph Neural Networks참고 문헌 40인용 수 70
한 줄 요약

GCOMB은 가지치기 기반의 Graph Convolutional Network와 Q-learning 모듈을 결합하여 그래프에서 예산 제약이 있는 집합 문제에 대한 확장 가능한 휴리스틱을 학습하고, Influence Maximization과 같은 작업에서 해법 품질을 유지하거나 향상시키면서 대규모 속도 향상을 달성합니다.

ABSTRACT

There has been an increased interest in discovering heuristics for combinatorial problems on graphs through machine learning. While existing techniques have primarily focused on obtaining high-quality solutions, scalability to billion-sized graphs has not been adequately addressed. In addition, the impact of budget-constraint, which is necessary for many practical scenarios, remains to be studied. In this paper, we propose a framework called GCOMB to bridge these gaps. GCOMB trains a Graph Convolutional Network (GCN) using a novel probabilistic greedy mechanism to predict the quality of a node. To further facilitate the combinatorial nature of the problem, GCOMB utilizes a Q-learning framework, which is made efficient through importance sampling. We perform extensive experiments on real graphs to benchmark the efficiency and efficacy of GCOMB. Our results establish that GCOMB is 100 times faster and marginally better in quality than state-of-the-art algorithms for learning combinatorial algorithms. Additionally, a case-study on the practical combinatorial problem of Influence Maximization (IM) shows GCOMB is 150 times faster than the specialized IM algorithm IMM with similar quality.

연구 동기 및 목표

  • 큰 그래프에서 NP-hard 조합 최적 문제에 대한 효과적인 휴리스틱 학습을 촉진한다.
  • 십억 규모의 그래프를 다룰 수 있는 확장 가능한 프레임워크를 개발한다.
  • 유망한 노드에 계산을 집중하기 위해 감독 학습 기반 가지치기와 강화 학습을 통합한다.
  • Influence Maximization (IM)을 포함한 여러 예산 제약 문제에서 효과를 시연한다.
  • 이전 학습 기반 접근법에 비해 실용적 확장성 이점을 보여준다.

제안 방법

  • 두 단계 구성: 가지치기와 좋은 노드 임베딩을 위한 Graph Convolutional Network (GCN), 그 뒤에 최종 해집합을 선택하기 위한 Q-learning 모듈.
  • 확률적 그리디 샘플링을 통해 다양한 학습 해를 생성하고 노드 품질 점수를 얻는 한계 이득(marginal gains)으로 측정한다.
  • 비용이 큰 계산 전에 노이즈가 있는 노드를 가지치기하기 위해 1층 GCN 특징을 이용한 경량 노이즈 예측기를 사용한다.
  • 상태를 후보 집합으로, 행동을 노드 추가로, 보상을 목표 함수의 한계 이득에 해당하도록 하는 Q-learning 공식화이다.
  • 노드 로컬리티 계산 비용을 줄이기 위한 중요 샘플링을 통한 효율적인 로컬리티 추정이다.
  • 학습은 감독 학습(노드 품질 예측)과 강화 학습(최적 노드 선택)을 결합한다.
  • 추론은 GCN을 거쳐 단일 순전파를 수행한 뒤 가지치기된 후보 집합에서 Q-learning을 수행한다.

실험 결과

연구 질문

  • RQ1감독 학습과 강화 학습이 혼합된 프레임워크가 예산 제약 셋의 조합 문제를 해결하면서 십억 규모의 그래프까지 확장될 수 있는가?
  • RQ2노이즈가 있는 노드를 가지치고 강화 학습을 고품질 후보에 집중시키는 것이 엔드-투-엔드 접근법보다 확장성과 해의 질을 향상시키는가?
  • RQ3GCOMB가 IM, MCP, MVC를 포함한 다양한 문제 인스턴스에서 최첨단 학습 기반 및 비학습 기준선에 비해 어떻게 수행되는가?
  • RQ4확률적 그리디 훈련과 중요 샘플링을 사용할 때 정확도와 속도 간의 트레이드오프는 무엇인가?

주요 결과

  • GCOMB은 최첨단 학습 기반 방법보다 훨씬 빠르며(최대 100배), 종종 더 높은 품질의 해를 산출한다.
  • Influence Maximization(IMM) 사례 연구에서 GCOMB은 IMM보다 약 150배 빠르며 해의 품질은 유사하다.
  • S2V-DQN 및 GCN-TreeSearch와 비교하여, GCOMB은 약간 더 나은 혹은 경쟁력 있는 품질을 제공하면서도 훨씬 더 우수한 확장성을 보인다.
  • 중요 샘플링과 노이즈 예측기는 계산 시간을 크게 줄이고 해의 질을 희생하지 않으며 종종 개선한다.
  • 경쟁 방법이 규모 확장에 실패하는 실제 세계의 십억 규모 그래프에서도 GCOMB은 여전히 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.