QUICK REVIEW

[論文レビュー] Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing

Arthur Delarue, Ross Anderson|arXiv (Cornell University)|Oct 22, 2020

Reinforcement Learning in Robotics参考文献 37被引用数 46

ひとこと要約

tldr: 本論文は、組合せ行動を持つ価値関数ベースの強化学習のフレームワークを提案し、行動選択を混合整数プログラムとして定式化する。CVRPへポリシー反復法とニューラル価値関数近似器を適用する。ベースラインに対して競争力のある結果を達成し、標準的なCVRPインスタンスではOR-Toolsにほぼ匹敵する。

ABSTRACT

Value-function-based methods have long played an important role in reinforcement learning. However, finding the best next action given a value function of arbitrary complexity is nontrivial when the action space is too large for enumeration. We develop a framework for value-function-based deep reinforcement learning with a combinatorial action space, in which the action selection problem is explicitly formulated as a mixed-integer optimization problem. As a motivating example, we present an application of this framework to the capacitated vehicle routing problem (CVRP), a combinatorial optimization problem in which a set of locations must be covered by a single vehicle with limited capacity. On each instance, we model an action as the construction of a single route, and consider a deterministic policy which is improved through a simple policy iteration algorithm. Our approach is competitive with other reinforcement learning methods and achieves an average gap of 1.7% with state-of-the-art OR methods on standard library instances of medium size.

研究の動機と目的

組合せ最適化のための強化学習を動機づけ、行動選択に最適化を埋め込むことで大きな行動空間に対処する。
ニューラルネットワークが価値関数を推定し、混合整数プログラムが次の行動を選択するポリシー反復RLフレームワークを提案する。
このアプローチを容量制約付き車両経路問題(CVRP)へ適用し、行動選択をカートンバッグ制約を持つPC-TSPへ還元する。
ランダムおよびライブラリCVRPインスタンスでベースラインおよびOR-Toolsと競合できることを示し、単一インスタンス学習の利点を強調する。

提案手法

CVRPの状態を未訪問都市の2値ベクトルとして表現し、行動をデポット出発/到着する実行可能な経路として表す。
現在のポリシーに対する価値関数 V^π を近似するため、ReLU活性化を用いた小さなニューラルネットワークを用いる。
ポリシー改善時には C(a) + V̂(T(s,a)) を最小化して次の行動を選択する。その行動選択ステップを、ナップサック制約を有する PC-TSP を符号化した混合整数計画(MIP)として解く。
この MIP には、V̂(t) を ReLU 活性化を介して階段状（PIECEWISE-LINEAR）項として含め、標準の MIP ソルバーが組合せ行動を最適化できるようにする。
目的関数に組合合せ的下限 LB^p(t) を付加して MIP を tighter にし、収束を改善する。
ポリシー評価からのデータで価値ネットワークを学習し、反復を跨いだデータ保持と古いデータの影響を減衰させる。

実験結果

リサーチクエスチョン

RQ1強化学習における組合せ的行動空間を、行動選択ステップに最適化（MIP）を埋め込むことで効果的に扱えるか？
RQ2小さなニューラルネットワーク価値関数と最適化ベースの行動選択機とを組み合わせた場合、CVRP における性能は RL ベースラインおよび OR-Tools と比較してどうなるか？
RQ3データ保持、ネットワークサイズ、正則化が CVRP のポリシー反復性能に与える影響は何か？
RQ4標準ベンチマークインスタンスで、単一インスタンス RL アプローチは分布ベースの RL 手法と競合できるか？

主な発見

方法	n=11 μ	n=11 σ	n=21 μ	n=21 σ	n=51 μ	n=51 σ
Greedy	4.90	0.03	7.16	0.03	13.55	0.04
Nazari et al.	4.68	0.03	6.40	0.03	11.15	0.04
Kool et al.	-	-	6.25	-	10.62	-
RLCA-16	4.55	0.03	6.16	0.03	10.65	0.04
OR-Tools	4.55	0.03	6.13	0.03	10.47	0.04
Optimal	4.55	0.03	6.13	0.03	-	-

標準CVRPライブラリインスタンスに対する OR-Tools との平均ギャップは、中規模問題を横断して1.7%である。
RLCA法（16ニューロン）は、従来のRL手法と比較してシンプルなニューラルアーキテクチャで競争力のある結果を達成。
11、21、51都市のランダムCVRPインスタンスでは、RLCAはGreedyを上回り、OR-Toolsの性能に匹敵するか、あるいは近づき、場合によっては実用的な時間内に最適CP-SAT解に近づく。
訓練時間のボトルネックは行動選択MIPの解決である。Gurobi は通常 SCIP より速く、より迅速なポリシー反復を可能にする。
組合せ的下限の組み込みは収束と解品質をわずかに改善する。より大きなネットワークは、収益微増を見せつつ性能を向上させるが、限界もある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。