Skip to main content
QUICK REVIEW

[論文レビュー] Learning 2-opt Heuristics for the Traveling Salesman Problem via Deep Reinforcement Learning

Paulo Roberto de Oliveira da Costa, Jason Rhuggenaath|arXiv (Cornell University)|Apr 3, 2020
Vehicle Routing Optimization Methods参考文献 26被引用数 71
ひとこと要約

本論文は、Euclidean TSP の 2-opt 改善手を学習するために、ポリシー勾配ベースの深層強化学習モデルを訓練し、ポインター注意デコーダとデュアルエンコーダを用いて、ランダムスタートからほぼ最適解を達成する。従来の DL 手法より収束が速く、結果も優れており、一般的な k-opt 手法に適応することを示す。

ABSTRACT

Recent works using deep learning to solve the Traveling Salesman Problem (TSP) have focused on learning construction heuristics. Such approaches find TSP solutions of good quality but require additional procedures such as beam search and sampling to improve solutions and achieve state-of-the-art performance. However, few studies have focused on improvement heuristics, where a given solution is improved until reaching a near-optimal one. In this work, we propose to learn a local search heuristic based on 2-opt operators via deep reinforcement learning. We propose a policy gradient algorithm to learn a stochastic policy that selects 2-opt operations given a current solution. Moreover, we introduce a policy neural network that leverages a pointing attention mechanism, which unlike previous works, can be easily extended to more general k-opt moves. Our results show that the learned policies can improve even over random initial solutions and approach near-optimal solutions at a faster rate than previous state-of-the-art deep learning methods.

研究の動機と目的

  • TSP の改善ヒューリスティックの学習を動機付け、構築ヒューリスティックよりも 2-opt 手に焦点を当てる。
  • 解を改善するための 2-opt 手を選択する確率的ポリシーを学習する強化学習フレームワークを開発する。
  • 一般的な k-opt 手法へ拡張可能な、指向注意機構を備えたポリシー神経ネットワークを作成する。
  • 学習したポリシーが劣った解から開始して、従来の DL 手法よりもほぼ最適解へ高速に改善できることを示す。

提案手法

  • 状態 = (現在の巡回、これまでで最良の巡回) となる MDP として TSP の 2-opt 改善を定式化する。
  • 利得に基づく更新を用いた 2-opt 手の確率的ポリシーを学習するためにポリシー勾配を用いる。
  • 巡回と辺を表現するために、Graph Convolutional Network (GCN) と逐次的 RNN エンコーディングを組み合わせたデュアルエンコーダーアーキテクチャを採用する。
  • 有効な 2-opt 手のためのノードインデックスを出力する指向注意機構を介して行動をデコードし、より高い k-opt 手法への拡張を可能にする。
  • 探索を促進するエントロピー報酬を含む actor-critic 型の目的関数で訓練する。

実験結果

リサーチクエスチョン

  • RQ1学習された 2-opt 改善ポリシーは、従来の DL 手法よりも効率的にほぼ最適解に近い TSP 巡回を達成できるか?
  • RQ2デュアルグラフとシーケンスエンコーダーと指向デコーダーを組み合わせた構成は、Euclidean TSP における 2-opt 手にどの程度有効か?
  • RQ3学習済みの 2-opt ポリシーは、小さな TSP から大きなインスタンス、ランダムな初期解からの一般化が可能か?
  • RQ4より長い計画 horizons(より長いエピソード長)がポリシー性能に与える影響は何か?

主な発見

  • 学習したポリシーは、TSP サイズ(20、50、100 ノード)全体で、ランダムな初期巡回からほぼ最適解を達成する。
  • より長いエピソードを持つポリシーは、より長い計画 horizon を考慮することで検証性能を向上させる。
  • TSP100 の 512 のテスト事例で、本手法は再起動付きの古典的な 2-opt ヒューリスティクスおよび多くの従来の DL アプローチよりも解の品質と一貫性で優れている。
  • 500, 1000, and 2000 sampling steps の場合、報告された比較で、TSP20 では 0.01%、0.00%、0.00%、 TSP50 では 0.36%、0.21%、0.12%、 TSP100 では 1.84%、1.26%、0.87% のギャップを達成した。
  • 本手法は従来の RL 手法よりサンプル効率が高く、一般的な k-opt 手法へ適応できる一方で実行時間は競争力を保つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。