QUICK REVIEW

[論文レビュー] Neural Combinatorial Optimization with Reinforcement Learning

Irwan Bello, Hieu Pham|arXiv (Cornell University)|Nov 29, 2016

Metaheuristic Optimization Algorithms Research被引用数 278

ひとこと要約

論文は Neural Combinatorial Optimization を提示し、2D ユークリッドグラフ上の TSP とナップサックを解くために、強化学習（policy gradients）で訓練された pointer-network ベースのポリシーを用いる。事前学習とアクティブサーチ戦略によりほぼ最適解を達成。RL ベースの手法が教師あり学習法を上回ることを示し、推論時の検索バリアントを導入して解の品質を向上。

ABSTRACT

This paper presents a framework to tackle combinatorial optimization problems using neural networks and reinforcement learning. We focus on the traveling salesman problem (TSP) and train a recurrent network that, given a set of city coordinates, predicts a distribution over different city permutations. Using negative tour length as the reward signal, we optimize the parameters of the recurrent network using a policy gradient method. We compare learning the network parameters on a set of training graphs against learning them on individual test graphs. Despite the computational expense, without much engineering and heuristic designing, Neural Combinatorial Optimization achieves close to optimal results on 2D Euclidean graphs with up to 100 nodes. Applied to the KnapSack, another NP-hard problem, the same method obtains optimal solutions for instances with up to 200 items.

研究の動機と目的

問題サイズを超えて一般化する組合せ最適化への学習ベースのアプローチを動機づける。
グラウンドトゥルースラベルなしで有効な順列を出力できるニューラルアーキテクチャを開発する。
2D ユークリッド TSP とナップサックで有効性を示し、古典的ソルバーと比較する。
解の品質向上のためのトレーニング戦略（RL事前学習とアクティブサーチ）を探る。

提案手法

エンコーダ-デコーダ LSTM と注意機構ベースの指示機構を用いて p(pi|s) をモデル化するポインターネットワークを使用する。
ツアー確率を p(pi|s)=Product p(pi(i)|pi(<i),s) に分解し、非パラメトリック softmax モジュール（ポインターネットワーク）を用いる。
ベースラインを用いて分散を減らしながら、期待ツアー長を最小化する政策勾配（REINFORCE）で訓練する。
与えられた入力に対する期待ツアー長を推定する批評家（ベースラインネットワーク）を導入し、学習を導く（ actor-critic）。
推論時の検索戦略を2つ採用する：確率的ポリシーからのサンプリングと、単一のテスト事例でポリシーパラメータを更新するアクティブサーチ手法。
他の問題への一般化を議論し、ケーススタディとしてナップサックで例示する。

実験結果

リサーチクエスチョン

RQ1ポインタアーキテクチャを持つニューラルネットワークは、教師ありの最適ラベルなしで組合せ最適化の良いヒューリスティクスを学べるか？
RQ2RL の事前学習とアクティブサーチは、TSP とナップサックで教師あり学習のベースラインより優れているか？
RQ3最適解との差を縮める推論時の有効な戦略は何か？
RQ4トレーニングインスタンスのサイズを超えた可変問題サイズへどれだけ一般化できるか？
RQ5報酬と実現可能性の扱いを変えることで、他の組合せタスクにもフレームワークを適用できるか？

主な発見

RL ベースの訓練は、TSP に関して従来の教師あり学習より実質的に改善する。
十分な計算資源を与えられた場合、2D ユークリッド TSP グラフでノード数が100に達してもほぼ最適解に近い結果を得られる。
ナップサックへ適用した場合、200アイテムまでのインスタンスで最適解を達成する。
アクティブサーチと RL 事前学習-サンプリングが最も競争力のある推論戦略で、速度と解の品質のトレードオフがある。
Greedy デコードは高速だが劣る。サンプリングとアクティブサーチは追加計算でほぼ最適解に近いツアーを得られる。
推論時の検索は品質の小さな損失で早期停止が可能で、実行時間を短縮できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。