QUICK REVIEW

[論文レビュー] A Reinforcement Learning Environment For Job-Shop Scheduling

Pierre Tassel, Martin Gebser|arXiv (Cornell University)|Apr 8, 2021

Scheduling and Optimization Algorithms参考文献 20被引用数 45

ひとこと要約

tldr: 本論文は、単一エージェントPPOベースのDRL環境を用いたジョブショップスケジューリング（JSS）を提案し、コンパクトな状態表現と密な報酬関数を用いて、標準ベンチマークでディスパッチ規則および従来のRL手法より良い結果を達成し、最先端のCOP性能に近づいている。

ABSTRACT

Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.

研究の動機と目的

難解なCOP問題を扱い、関連するインスタンス間で lifelong learning を可能にするために、深層強化学習をJSSに適用する動機づけ。
JSSの単一エージェントディスパッチャー形式を提案し、Proximal Policy Optimization (PPO) で政策を学習する。
総作業時間最小化に強く結びついた、コンパクトで情報量の多い状態表現と密な報酬を設計する。
探索空間削減と問題対称性の考慮を導入し、学習効率を向上させる。
ベンチマークインスタンス上で、ディスパッチ規則および既存のRL手法より経験的な性能向上を実証する。

提案手法

エージェントが次にスケジュールすべきジョブを選択するか、時間を進めるためのNo-Opを選ぶという、単一エージェントのマルコフ決定過程としてJSSをモデル化する。
ポリシーと値関数用に別個のMLPを用い、更新を安定化させるクリップ付き目的関数で学習するPPOを使用する。
最大作業長でスケールされた、スケジュール済み作業長さから機械の待機時間を差し引いた密な報酬R(s,a)を提供し、総作業時間最小化に関係づける。
割当可能性、残り時間、アイドル指標を捉える7属性 per-job 行列として、コンパクトな状態表現を導入し、MWKRやFIFOなどの解法規則の解釈を容易にする。
違法な行動を禁じる行動マスキングを用い、非最終優先付けやNo-Op制約などの探索空間削減を適用して探索を誘導する。
OpenAI Gym で環境を実装し、RLLib/TensorFlowで学習させ、WandBを用いてハイパーパラメータ調整を行う。

実験結果

リサーチクエスチョン

RQ1時間制約下で、単一エージェントPPOベースのDRLアプローチがJSS解決にどれほど有効か？
RQ2compactで解釈可能な状態表現と密な報酬は、以前のRLやディスパッチ規則法と比べて学習と性能を加速できるか？
RQ3探索空間削減とNo-Op処理が学習効率と解決品質に与える影響は？
RQ4固定されたハイパーパラメータで、TaillardとDemirkolのベンチマークデータセット全体に対する訓練済みエージェントの一般化性能はどの程度か？

主な発見

データセット	インスタンス	Ours	FIFO	MWKR	( Zhang et al. 2020 )	( Han and Yang 2020 )	OR Tools	上限
Taillard	ta41	2208	2543	2632	2667	2450	2144	2005
Taillard	ta42	2168	2578	2401	2664	2351	2071	1937
Taillard	ta43	2086	2506	2385	2431	—	1967	1846
Taillard	ta44	2261	2555	2532	2714	—	2094	1979
Taillard	ta45	2227	2565	2431	2637	—	2032	2000
Taillard	ta46	2349	2617	2485	2776	—	2129	2004
Taillard	ta47	2101	2508	2301	2476	—	1952	1889
Taillard	ta48	2267	2541	2350	2490	—	2091	1941
Taillard	ta49	2154	2550	2474	2556	—	2089	1961
Taillard	ta50	2216	2531	2496	2628	—	2010	1923
Demirkol	dmu16	4188	4934	4550	4953	4414	3903	3751
Demirkol	dmu17	4274	5014	4874	5379	—	3960	3814
Demirkol	dmu18	4326	4936	4792	5100	—	4073	3844
Demirkol	dmu19	4195	4902	4842	4889	—	3922	3764
Demirkol	dmu20	4074	4539	4500	4859	—	3913	3703

PPOベースのDRLアプローチは、評価対象のすべてのTaillardおよびDemirkolインスタンスでFIFOおよびMWKRディスパッチ規則より優れた解を生む。
TaillardでのMWKRに対する平均make-spanの改善は11%、Demirkolインスタンスで12%である。
本手法はOR-Tools CPソルバーの性能に近づくが上回らない。DRLがこの設定で強力な競争力を持つことを示している。
同じベンチマークで報告された従来のRL法を上回る結果を、環境と学習設定が生み出している。
学習済みポリシーは、インスタンス特有の訓練にもかかわらず、類似の問題構造を持つデータセット間で一般化を示す。
密な報酬はmake-spanの改善と相関しており、スケジューリングタスクのDRL指導に適していることを裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。