Skip to main content
QUICK REVIEW

[論文レビュー] Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing

Arthur Delarue, Ross Anderson|arXiv (Cornell University)|Oct 22, 2020
Reinforcement Learning in Robotics参考文献 37被引用数 46
ひとこと要約

tldr: 本論文は、組合せ行動を持つ価値関数ベースの強化学習のフレームワークを提案し、行動選択を混合整数プログラムとして定式化する。CVRPへポリシー反復法とニューラル価値関数近似器を適用する。ベースラインに対して競争力のある結果を達成し、標準的なCVRPインスタンスではOR-Toolsにほぼ匹敵する。

ABSTRACT

Value-function-based methods have long played an important role in reinforcement learning. However, finding the best next action given a value function of arbitrary complexity is nontrivial when the action space is too large for enumeration. We develop a framework for value-function-based deep reinforcement learning with a combinatorial action space, in which the action selection problem is explicitly formulated as a mixed-integer optimization problem. As a motivating example, we present an application of this framework to the capacitated vehicle routing problem (CVRP), a combinatorial optimization problem in which a set of locations must be covered by a single vehicle with limited capacity. On each instance, we model an action as the construction of a single route, and consider a deterministic policy which is improved through a simple policy iteration algorithm. Our approach is competitive with other reinforcement learning methods and achieves an average gap of 1.7% with state-of-the-art OR methods on standard library instances of medium size.

研究の動機と目的

  • 組合せ最適化のための強化学習を動機づけ、行動選択に最適化を埋め込むことで大きな行動空間に対処する。
  • ニューラルネットワークが価値関数を推定し、混合整数プログラムが次の行動を選択するポリシー反復RLフレームワークを提案する。
  • このアプローチを容量制約付き車両経路問題(CVRP)へ適用し、行動選択をカートンバッグ制約を持つPC-TSPへ還元する。
  • ランダムおよびライブラリCVRPインスタンスでベースラインおよびOR-Toolsと競合できることを示し、単一インスタンス学習の利点を強調する。

提案手法

  • CVRPの状態を未訪問都市の2値ベクトルとして表現し、行動をデポット出発/到着する実行可能な経路として表す。
  • 現在のポリシーに対する価値関数 V^π を近似するため、ReLU活性化を用いた小さなニューラルネットワークを用いる。
  • ポリシー改善時には C(a) + V̂(T(s,a)) を最小化して次の行動を選択する。その行動選択ステップを、ナップサック制約を有する PC-TSP を符号化した混合整数計画(MIP)として解く。
  • この MIP には、V̂(t) を ReLU 活性化を介して階段状(PIECEWISE-LINEAR)項として含め、標準の MIP ソルバーが組合せ行動を最適化できるようにする。
  • 目的関数に組合合せ的下限 LB^p(t) を付加して MIP を tighter にし、収束を改善する。
  • ポリシー評価からのデータで価値ネットワークを学習し、反復を跨いだデータ保持と古いデータの影響を減衰させる。

実験結果

リサーチクエスチョン

  • RQ1強化学習における組合せ的行動空間を、行動選択ステップに最適化(MIP)を埋め込むことで効果的に扱えるか?
  • RQ2小さなニューラルネットワーク価値関数と最適化ベースの行動選択機とを組み合わせた場合、CVRP における性能は RL ベースラインおよび OR-Tools と比較してどうなるか?
  • RQ3データ保持、ネットワークサイズ、正則化が CVRP のポリシー反復性能に与える影響は何か?
  • RQ4標準ベンチマークインスタンスで、単一インスタンス RL アプローチは分布ベースの RL 手法と競合できるか?

主な発見

方法n=11 μn=11 σn=21 μn=21 σn=51 μn=51 σ
Greedy4.900.037.160.0313.550.04
Nazari et al.4.680.036.400.0311.150.04
Kool et al.--6.25-10.62-
RLCA-164.550.036.160.0310.650.04
OR-Tools4.550.036.130.0310.470.04
Optimal4.550.036.130.03--
  • 標準CVRPライブラリインスタンスに対する OR-Tools との平均ギャップは、中規模問題を横断して1.7%である。
  • RLCA法(16ニューロン) は、従来のRL手法と比較してシンプルなニューラルアーキテクチャで競争力のある結果を達成。
  • 11、21、51都市のランダムCVRPインスタンスでは、RLCAはGreedyを上回り、OR-Toolsの性能に匹敵するか、あるいは近づき、場合によっては実用的な時間内に最適CP-SAT解に近づく。
  • 訓練時間のボトルネックは行動選択MIPの解決である。Gurobi は通常 SCIP より速く、より迅速なポリシー反復を可能にする。
  • 組合せ的下限の組み込みは収束と解品質をわずかに改善する。より大きなネットワークは、収益微増を見せつつ性能を向上させるが、限界もある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。