[論文レビュー] Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning
本論文は、サイズに依存しない、グラフニューラルネットワーク–ベースのDRL手法を用いて、ジョブショップスケジューリング問題(JSSP)を解くための高品質な優先発注ルール(PDR)を自動的に学習し、従来のPDRベースラインを上回り、より大規模なインスタンスへ一般化する。
Priority dispatching rule (PDR) is widely used for solving real-world Job-shop scheduling problem (JSSP). However, the design of effective PDRs is a tedious task, requiring a myriad of specialized knowledge and often delivering limited performance. In this paper, we propose to automatically learn PDRs via an end-to-end deep reinforcement learning agent. We exploit the disjunctive graph representation of JSSP, and propose a Graph Neural Network based scheme to embed the states encountered during solving. The resulting policy network is size-agnostic, effectively enabling generalization on large-scale instances. Experiments show that the agent can learn high-quality PDRs from scratch with elementary raw features, and demonstrates strong performance against the best existing PDRs. The learned policies also perform well on much larger instances that are unseen in training.
研究の動機と目的
- JSSPのための効果的な優先発注ルール(PDR)の設計を、深層強化学習を用いて自動化する。
- スケジューリング決定のために、依存関係と機械の状態を捉える離接グラフ表現を活用する。
- ジョブ数および機械数の異なる規模に対してスケールするサイズ非依存で一般化可能なポリシーを開発する。
- 生成データと公開ベンチマーク上で、学習されたPDRが手動設計ルールを上回ることを実証する。
提案手法
- JSSPのディスパッチを、状態を離接グラフとし、アクションが適用可能な操作をディスパッチするマルコフ決定過程として定式化する。
- グラフ構造の状態を、Graph Isomorphism Network (GIN)を用いて埋め込み、固定次元のノードおよびグラフ埋め込みを取得する。
- GNN処理のために、追加アーク戦略を用いて疎な有向離接グラフを生成し、MLPによってアクションスコアを導出する。
- ポリシーをGNNベースのネットワークでパラメータ化し、GNNのバックボーンを共有するクリティックを用いたPPO(Proximal Policy Optimization)で訓練する。
- 報酬を、メイクスパンの下限の改善として定義し、投影メイクスパンを減らすアクションを促進する。累積報酬にはガンマを1とする。
- Taillard様式の生成インスタンスと公開ベンチマーク(TaillardとDMU)で評価し、SPT、MWKR、MOPNR、FDD/MWKRなど従来のPDRと比較する。
実験結果
リサーチクエスチョン
- RQ1DRLフレームワークは、未加工の特徴量からJSSPに対して高品質で一般化可能なPDRを0から学習できるか?
- RQ2小さなインスタンスで訓練されたサイズ非依存のGNNベースポリシーは、見たことのない大規模な問題サイズへ一般化できるか?
- RQ3標準ベンチマークにおける従来の手作りPDRと比べて、学習済みPDRはどのように性能を発揮するか?
- RQ4離接グラフ表現とグラフベースの埋め込みが、スケジューリングダイナミクスを効果的に捉え、意思決定を導くことができるか?
主な発見
- 学習済みPDRは、生成されたインスタンス(サイズが最大30×20まで)で、従来のベースライン(SPT、MWKR、FDD/MWKR、MOPNR)を一貫して上回る。
- 学習済みポリシーは、訓練時に見られなかった大規模なインスタンス(例: 50×20、100×20)へと一般化し、従来のPDRよりも性能が優れている。
- PPOとGINベースのポリシーで訓練すると、各サイズごとに再訓練せずに、任意のインスタンスサイズへスケール可能なサイズ非依存のポリシーが得られる。
- 推論時間は従来のPDRより長いが、メイクスパンの改善効果は大きく、実用的な時間内に多くの大規模インスタンスでOR-Toolsを上回る。
- TaillardおよびDMUベンチマークでの実験は、学習されたPDRが堅牢な性能を維持し、ベストソリューションとの差がベースラインより小さいことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。