Skip to main content
QUICK REVIEW

[論文レビュー] A Reinforcement Learning Environment For Job-Shop Scheduling

Pierre Tassel, Martin Gebser|arXiv (Cornell University)|Apr 8, 2021
Scheduling and Optimization Algorithms参考文献 20被引用数 45
ひとこと要約

tldr: 本論文は、単一エージェントPPOベースのDRL環境を用いたジョブショップスケジューリング(JSS)を提案し、コンパクトな状態表現と密な報酬関数を用いて、標準ベンチマークでディスパッチ規則および従来のRL手法より良い結果を達成し、最先端のCOP性能に近づいている。

ABSTRACT

Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.

研究の動機と目的

  • 難解なCOP問題を扱い、関連するインスタンス間で lifelong learning を可能にするために、深層強化学習をJSSに適用する動機づけ。
  • JSSの単一エージェントディスパッチャー形式を提案し、Proximal Policy Optimization (PPO) で政策を学習する。
  • 総作業時間最小化に強く結びついた、コンパクトで情報量の多い状態表現と密な報酬を設計する。
  • 探索空間削減と問題対称性の考慮を導入し、学習効率を向上させる。
  • ベンチマークインスタンス上で、ディスパッチ規則および既存のRL手法より経験的な性能向上を実証する。

提案手法

  • エージェントが次にスケジュールすべきジョブを選択するか、時間を進めるためのNo-Opを選ぶという、単一エージェントのマルコフ決定過程としてJSSをモデル化する。
  • ポリシーと値関数用に別個のMLPを用い、更新を安定化させるクリップ付き目的関数で学習するPPOを使用する。
  • 最大作業長でスケールされた、スケジュール済み作業長さから機械の待機時間を差し引いた密な報酬R(s,a)を提供し、総作業時間最小化に関係づける。
  • 割当可能性、残り時間、アイドル指標を捉える7属性 per-job 行列として、コンパクトな状態表現を導入し、MWKRやFIFOなどの解法規則の解釈を容易にする。
  • 違法な行動を禁じる行動マスキングを用い、非最終優先付けやNo-Op制約などの探索空間削減を適用して探索を誘導する。
  • OpenAI Gym で環境を実装し、RLLib/TensorFlowで学習させ、WandBを用いてハイパーパラメータ調整を行う。

実験結果

リサーチクエスチョン

  • RQ1時間制約下で、単一エージェントPPOベースのDRLアプローチがJSS解決にどれほど有効か?
  • RQ2compactで解釈可能な状態表現と密な報酬は、以前のRLやディスパッチ規則法と比べて学習と性能を加速できるか?
  • RQ3探索空間削減とNo-Op処理が学習効率と解決品質に与える影響は?
  • RQ4固定されたハイパーパラメータで、TaillardとDemirkolのベンチマークデータセット全体に対する訓練済みエージェントの一般化性能はどの程度か?

主な発見

データセットインスタンスOursFIFOMWKR( Zhang et al. 2020 )( Han and Yang 2020 )OR Tools上限
Taillardta412208254326322667245021442005
Taillardta422168257824012664235120711937
Taillardta43208625062385243119671846
Taillardta44226125552532271420941979
Taillardta45222725652431263720322000
Taillardta46234926172485277621292004
Taillardta47210125082301247619521889
Taillardta48226725412350249020911941
Taillardta49215425502474255620891961
Taillardta50221625312496262820101923
Demirkoldmu164188493445504953441439033751
Demirkoldmu17427450144874537939603814
Demirkoldmu18432649364792510040733844
Demirkoldmu19419549024842488939223764
Demirkoldmu20407445394500485939133703
  • PPOベースのDRLアプローチは、評価対象のすべてのTaillardおよびDemirkolインスタンスでFIFOおよびMWKRディスパッチ規則より優れた解を生む。
  • TaillardでのMWKRに対する平均make-spanの改善は11%、Demirkolインスタンスで12%である。
  • 本手法はOR-Tools CPソルバーの性能に近づくが上回らない。DRLがこの設定で強力な競争力を持つことを示している。
  • 同じベンチマークで報告された従来のRL法を上回る結果を、環境と学習設定が生み出している。
  • 学習済みポリシーは、インスタンス特有の訓練にもかかわらず、類似の問題構造を持つデータセット間で一般化を示す。
  • 密な報酬はmake-spanの改善と相関しており、スケジューリングタスクのDRL指導に適していることを裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。