[論文レビュー] Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing
tldr: 本論文は、組合せ行動を持つ価値関数ベースの強化学習のフレームワークを提案し、行動選択を混合整数プログラムとして定式化する。CVRPへポリシー反復法とニューラル価値関数近似器を適用する。ベースラインに対して競争力のある結果を達成し、標準的なCVRPインスタンスではOR-Toolsにほぼ匹敵する。
Value-function-based methods have long played an important role in reinforcement learning. However, finding the best next action given a value function of arbitrary complexity is nontrivial when the action space is too large for enumeration. We develop a framework for value-function-based deep reinforcement learning with a combinatorial action space, in which the action selection problem is explicitly formulated as a mixed-integer optimization problem. As a motivating example, we present an application of this framework to the capacitated vehicle routing problem (CVRP), a combinatorial optimization problem in which a set of locations must be covered by a single vehicle with limited capacity. On each instance, we model an action as the construction of a single route, and consider a deterministic policy which is improved through a simple policy iteration algorithm. Our approach is competitive with other reinforcement learning methods and achieves an average gap of 1.7% with state-of-the-art OR methods on standard library instances of medium size.
研究の動機と目的
- 組合せ最適化のための強化学習を動機づけ、行動選択に最適化を埋め込むことで大きな行動空間に対処する。
- ニューラルネットワークが価値関数を推定し、混合整数プログラムが次の行動を選択するポリシー反復RLフレームワークを提案する。
- このアプローチを容量制約付き車両経路問題(CVRP)へ適用し、行動選択をカートンバッグ制約を持つPC-TSPへ還元する。
- ランダムおよびライブラリCVRPインスタンスでベースラインおよびOR-Toolsと競合できることを示し、単一インスタンス学習の利点を強調する。
提案手法
- CVRPの状態を未訪問都市の2値ベクトルとして表現し、行動をデポット出発/到着する実行可能な経路として表す。
- 現在のポリシーに対する価値関数 V^π を近似するため、ReLU活性化を用いた小さなニューラルネットワークを用いる。
- ポリシー改善時には C(a) + V̂(T(s,a)) を最小化して次の行動を選択する。その行動選択ステップを、ナップサック制約を有する PC-TSP を符号化した混合整数計画(MIP)として解く。
- この MIP には、V̂(t) を ReLU 活性化を介して階段状(PIECEWISE-LINEAR)項として含め、標準の MIP ソルバーが組合せ行動を最適化できるようにする。
- 目的関数に組合合せ的下限 LB^p(t) を付加して MIP を tighter にし、収束を改善する。
- ポリシー評価からのデータで価値ネットワークを学習し、反復を跨いだデータ保持と古いデータの影響を減衰させる。
実験結果
リサーチクエスチョン
- RQ1強化学習における組合せ的行動空間を、行動選択ステップに最適化(MIP)を埋め込むことで効果的に扱えるか?
- RQ2小さなニューラルネットワーク価値関数と最適化ベースの行動選択機とを組み合わせた場合、CVRP における性能は RL ベースラインおよび OR-Tools と比較してどうなるか?
- RQ3データ保持、ネットワークサイズ、正則化が CVRP のポリシー反復性能に与える影響は何か?
- RQ4標準ベンチマークインスタンスで、単一インスタンス RL アプローチは分布ベースの RL 手法と競合できるか?
主な発見
| 方法 | n=11 μ | n=11 σ | n=21 μ | n=21 σ | n=51 μ | n=51 σ |
|---|---|---|---|---|---|---|
| Greedy | 4.90 | 0.03 | 7.16 | 0.03 | 13.55 | 0.04 |
| Nazari et al. | 4.68 | 0.03 | 6.40 | 0.03 | 11.15 | 0.04 |
| Kool et al. | - | - | 6.25 | - | 10.62 | - |
| RLCA-16 | 4.55 | 0.03 | 6.16 | 0.03 | 10.65 | 0.04 |
| OR-Tools | 4.55 | 0.03 | 6.13 | 0.03 | 10.47 | 0.04 |
| Optimal | 4.55 | 0.03 | 6.13 | 0.03 | - | - |
- 標準CVRPライブラリインスタンスに対する OR-Tools との平均ギャップは、中規模問題を横断して1.7%である。
- RLCA法(16ニューロン) は、従来のRL手法と比較してシンプルなニューラルアーキテクチャで競争力のある結果を達成。
- 11、21、51都市のランダムCVRPインスタンスでは、RLCAはGreedyを上回り、OR-Toolsの性能に匹敵するか、あるいは近づき、場合によっては実用的な時間内に最適CP-SAT解に近づく。
- 訓練時間のボトルネックは行動選択MIPの解決である。Gurobi は通常 SCIP より速く、より迅速なポリシー反復を可能にする。
- 組合せ的下限の組み込みは収束と解品質をわずかに改善する。より大きなネットワークは、収益微増を見せつつ性能を向上させるが、限界もある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。