QUICK REVIEW

[논문 리뷰] Learning Combinatorial Optimization Algorithms over Graphs

Hanjun Dai, Elias B. Khalil|arXiv (Cornell University)|2017. 04. 05.

Optimization and Search Problems참고 문헌 28인용 수 971

한 줄 요약

이 논문은 그래프 기반 NP-hard 최적화 문제에 대해 강화 학습과 그래프 임베딩을 결합하여 탐욕적 휴리스틱을 학습하는 프레임워크 S2V-DQN을 제시하며, 문제 유형과 크기에 대해 일반화합니다.

ABSTRACT

The design of good heuristics or approximation algorithms for NP-hard combinatorial optimization problems often requires significant specialized knowledge and trial-and-error. Can we automate this challenging, tedious process, and learn the algorithms instead? In many real-world applications, it is typically the case that the same optimization problem is solved again and again on a regular basis, maintaining the same problem structure but differing in the data. This provides an opportunity for learning heuristic algorithms that exploit the structure of such recurring problems. In this paper, we propose a unique combination of reinforcement learning and graph embedding to address this challenge. The learned greedy policy behaves like a meta-algorithm that incrementally constructs a solution, and the action is determined by the output of a graph embedding network capturing the current state of the solution. We show that our framework can be applied to a diverse range of optimization problems over graphs, and learns effective algorithms for the Minimum Vertex Cover, Maximum Cut and Traveling Salesman problems.

연구 동기 및 목표

반복적인 그래프 최적화 문제에 대한 휴리스틱 설계 자동화의 동기를 제시한다.
그래프 임베딩 네트워크에 의해 결정되는 행동을 갖는 탐욕 메타 알고리즘을 제안한다.
강화 학습을 통해 원래 문제 목표를 최적화하는 엔드 투 엔드 학습 프레임워크를 개발한다.
여러 클래식 문제에 대해 문제 크기와 그래프 유형에 대해 일반화하는 것을 시연한다.
학습된 휴리스틱이 합성 및 실제 데이터 세트에서 전통적 접근법보다 우수하다는 것을 보여준다.

제안 방법

그래프에서 상태 S와 후보 액션 V\S를 갖는 그래프상의 탐욕 알고리즘을 형식화한다.
정책을 그래프 임베딩 네트워크 Structure2Vec로 표현하여 노드 임베딩을 생성한다.
Q-함수를 ㅂiciently로 ㅂAQ(h(S),v;Θ)로 매개화하여 노드 및 그래프 임베딩을 사용한다.
지연 보상을 다루기 위해 n-step Q-learning과 적합된 Q-iteration으로 엔드 투 엔드로 학습한다.
MVC, MAXCUT, TSP에 프레임워크를 적용하고 PN-AC 및 고전 휴리스틱과 비교한다.
학습 데이터보다 큰 그래프에 대한 확장성과 일반화를 입증한다.
Demonstrate scalability and generalization to graphs larger than training data.

실험 결과

연구 질문

RQ1동일한 분포에서 샘플링된 보지 않은 그래프 인스턴스에 대해 학습된 탐욕 정책이 일반화될 수 있는가?
RQ2그래프 구조 임베딩과 강화 학습이 MVC, MAXCUT, TSP에 대해 효과적인 휴리스틱을 낳는가?
RQ3학습된 방법이 합성 및 실세계 그래프에서 수작업으로 설계된 휴리스틱 및 기존 신경 접근법과 비교하여 어떤 성능 차이를 보이는가?
RQ4학습된 정책이 훈련 중에 본 그래프보다 훨씬 큰 그래프에도 스케일링되는가?

주요 결과

S2V-DQN은 MVC, MAXCUT, TSP 전반에서 경쟁 방법들보다 평균 근사 비율이 훨씬 나쁘지 않게 향상된 결과를 달성한다.
MVC에서 S2V-DQN은 근사 비율이 1에 가까워 최적 성능에 근접한다.
S2V-DQN은 학습 데이터보다 작은 그래프에서 학습되었을 때도 최대 1200 노드까지의 그래프에 잘 일반화한다.
방법은 다항 시간 복잡도 O(k|E|)를 가지며 대형 그래프에서도 경쟁력 있는 런타임을 유지한다.
실세계 데이터셋에서 S2V-DQN이 최상위 경쟁자들을 현저한 차이로 능가하는 경향이 있다(예: MVC MemeTracker, MAXCUT Physics, TSP TSPLIB).
학습된 정책은 MVC와 MAXCUT에 대해 합리적인 새로운 휴리스틱을 발견하는 능력을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.