QUICK REVIEW

[論文レビュー] Learning Combinatorial Optimization Algorithms over Graphs

Hanjun Dai, Elias B. Khalil|arXiv (Cornell University)|Apr 5, 2017

Optimization and Search Problems参考文献 28被引用数 971

ひとこと要約

本論文は S2V-DQN を提案する。これは、強化学習とグラフ埋め込みを組み合わせることにより、グラフベースの NP困難最適化問題に対する貪欲ヒューリスティクスを学習し、問題タイプとサイズを跨いで一般化するフレームワークである。

ABSTRACT

The design of good heuristics or approximation algorithms for NP-hard combinatorial optimization problems often requires significant specialized knowledge and trial-and-error. Can we automate this challenging, tedious process, and learn the algorithms instead? In many real-world applications, it is typically the case that the same optimization problem is solved again and again on a regular basis, maintaining the same problem structure but differing in the data. This provides an opportunity for learning heuristic algorithms that exploit the structure of such recurring problems. In this paper, we propose a unique combination of reinforcement learning and graph embedding to address this challenge. The learned greedy policy behaves like a meta-algorithm that incrementally constructs a solution, and the action is determined by the output of a graph embedding network capturing the current state of the solution. We show that our framework can be applied to a diverse range of optimization problems over graphs, and learns effective algorithms for the Minimum Vertex Cover, Maximum Cut and Traveling Salesman problems.

研究の動機と目的

繰り返し現れるグラフ最適化問題のヒューリスティクス設計の自動化を動機づける。
グラフ埋め込みネットワークによって行動が決定される貪欲メタアルゴリズムを提案する。
強化学習を通じて元の問題目的を最適化するエンドツーエンドの学習フレームワークを開発する。
複数の古典的問題に対して、問題サイズとグラフタイプを横断する一般化を実証する。
学習したヒューリスティクスが、合成データと実世界データの両方で従来のアプローチを上回ることを示す。

提案手法

状態 S と候補行動 V\S を持つグラフ上の貪欲アルゴリズムを定式化する。
Structure2Vec というグラフ埋め込みネットワークを用いてポリシーを表現し、ノード埋め込みを生成する。
ノード埋め込みとグラフ埋め込みを用いて 7AQ(h(S),v;Θ) のように効率的に Q 関数をパラメータ化する。
遅延報酬に対処するため、n-step Q-learning と fitted Q-iteration でエンドツーエンドに訓練する。
MVC、MAXCUT、TSP にフレームワークを適用し、PN-AC および古典的ヒューリスティクスと比較する。
訓練データより大きいグラフへのスケーラビリティと一般化を示す。

実験結果

リサーチクエスチョン

RQ1同一分布から抽出された未知のグラフインスタンスに対して、学習済みの貪欲方針は一般化できるか？
RQ2グラフ構造の埋め込みと強化学習を組み合わせて、MVC、MAXCUT、TSP に効果的なヒューリスティクスを得られるか？
RQ3学習手法は、手作業で設計されたヒューリスティクスや既存のニューラル手法と、合成グラフおよび実世界のグラフでどう比較されるか？
RQ4学習された方針は、訓練時に見られたグラフより大きいグラフにスケールしますか？

主な発見

S2V-DQN は MVC、MAXCUT、TSP の比較法より平均近似比が著しく優れている。
MVC では、S2V-DQN は近似比をほぼ 1 に近づけ、最適解に近い性能を達成する。
S2V-DQN は、より小さなグラフで訓練した場合でも、1200ノードまでのグラフに対して良く一般化する。
本手法は多項式時間計算量 O(k|E|) で効率的に動作し、大規模グラフでも競争力のある実行時間を示す。
実世界データセットでは、S2V-DQN が最良の競合手法を顕著な差で上回ることを示している（例: MVC MemeTracker、MAXCUT Physics、TSP TSPLIB）。
学習した方針はMVCとMAXCUTに対して有意義な新しいヒューリスティクスを発見する能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。