[論文レビュー] A Reinforcement Learning Environment For Job-Shop Scheduling
tldr: 本論文は、単一エージェントPPOベースのDRL環境を用いたジョブショップスケジューリング(JSS)を提案し、コンパクトな状態表現と密な報酬関数を用いて、標準ベンチマークでディスパッチ規則および従来のRL手法より良い結果を達成し、最先端のCOP性能に近づいている。
Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.
研究の動機と目的
- 難解なCOP問題を扱い、関連するインスタンス間で lifelong learning を可能にするために、深層強化学習をJSSに適用する動機づけ。
- JSSの単一エージェントディスパッチャー形式を提案し、Proximal Policy Optimization (PPO) で政策を学習する。
- 総作業時間最小化に強く結びついた、コンパクトで情報量の多い状態表現と密な報酬を設計する。
- 探索空間削減と問題対称性の考慮を導入し、学習効率を向上させる。
- ベンチマークインスタンス上で、ディスパッチ規則および既存のRL手法より経験的な性能向上を実証する。
提案手法
- エージェントが次にスケジュールすべきジョブを選択するか、時間を進めるためのNo-Opを選ぶという、単一エージェントのマルコフ決定過程としてJSSをモデル化する。
- ポリシーと値関数用に別個のMLPを用い、更新を安定化させるクリップ付き目的関数で学習するPPOを使用する。
- 最大作業長でスケールされた、スケジュール済み作業長さから機械の待機時間を差し引いた密な報酬R(s,a)を提供し、総作業時間最小化に関係づける。
- 割当可能性、残り時間、アイドル指標を捉える7属性 per-job 行列として、コンパクトな状態表現を導入し、MWKRやFIFOなどの解法規則の解釈を容易にする。
- 違法な行動を禁じる行動マスキングを用い、非最終優先付けやNo-Op制約などの探索空間削減を適用して探索を誘導する。
- OpenAI Gym で環境を実装し、RLLib/TensorFlowで学習させ、WandBを用いてハイパーパラメータ調整を行う。
実験結果
リサーチクエスチョン
- RQ1時間制約下で、単一エージェントPPOベースのDRLアプローチがJSS解決にどれほど有効か?
- RQ2compactで解釈可能な状態表現と密な報酬は、以前のRLやディスパッチ規則法と比べて学習と性能を加速できるか?
- RQ3探索空間削減とNo-Op処理が学習効率と解決品質に与える影響は?
- RQ4固定されたハイパーパラメータで、TaillardとDemirkolのベンチマークデータセット全体に対する訓練済みエージェントの一般化性能はどの程度か?
主な発見
| データセット | インスタンス | Ours | FIFO | MWKR | ( Zhang et al. 2020 ) | ( Han and Yang 2020 ) | OR Tools | 上限 |
|---|---|---|---|---|---|---|---|---|
| Taillard | ta41 | 2208 | 2543 | 2632 | 2667 | 2450 | 2144 | 2005 |
| Taillard | ta42 | 2168 | 2578 | 2401 | 2664 | 2351 | 2071 | 1937 |
| Taillard | ta43 | 2086 | 2506 | 2385 | 2431 | — | 1967 | 1846 |
| Taillard | ta44 | 2261 | 2555 | 2532 | 2714 | — | 2094 | 1979 |
| Taillard | ta45 | 2227 | 2565 | 2431 | 2637 | — | 2032 | 2000 |
| Taillard | ta46 | 2349 | 2617 | 2485 | 2776 | — | 2129 | 2004 |
| Taillard | ta47 | 2101 | 2508 | 2301 | 2476 | — | 1952 | 1889 |
| Taillard | ta48 | 2267 | 2541 | 2350 | 2490 | — | 2091 | 1941 |
| Taillard | ta49 | 2154 | 2550 | 2474 | 2556 | — | 2089 | 1961 |
| Taillard | ta50 | 2216 | 2531 | 2496 | 2628 | — | 2010 | 1923 |
| Demirkol | dmu16 | 4188 | 4934 | 4550 | 4953 | 4414 | 3903 | 3751 |
| Demirkol | dmu17 | 4274 | 5014 | 4874 | 5379 | — | 3960 | 3814 |
| Demirkol | dmu18 | 4326 | 4936 | 4792 | 5100 | — | 4073 | 3844 |
| Demirkol | dmu19 | 4195 | 4902 | 4842 | 4889 | — | 3922 | 3764 |
| Demirkol | dmu20 | 4074 | 4539 | 4500 | 4859 | — | 3913 | 3703 |
- PPOベースのDRLアプローチは、評価対象のすべてのTaillardおよびDemirkolインスタンスでFIFOおよびMWKRディスパッチ規則より優れた解を生む。
- TaillardでのMWKRに対する平均make-spanの改善は11%、Demirkolインスタンスで12%である。
- 本手法はOR-Tools CPソルバーの性能に近づくが上回らない。DRLがこの設定で強力な競争力を持つことを示している。
- 同じベンチマークで報告された従来のRL法を上回る結果を、環境と学習設定が生み出している。
- 学習済みポリシーは、インスタンス特有の訓練にもかかわらず、類似の問題構造を持つデータセット間で一般化を示す。
- 密な報酬はmake-spanの改善と相関しており、スケジューリングタスクのDRL指導に適していることを裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。