Skip to main content
QUICK REVIEW

[論文レビュー] Curriculum Learning in Job Shop Scheduling using Reinforcement Learning

Constantin Waubert de Puiseau, Hasan Tercan|arXiv (Cornell University)|Jan 1, 2023
Scheduling and Optimization Algorithms被引用数 2
ひとこと要約

本稿では、ジョブショップスケジューリングにおける深層強化学習(DRL)のためのカリキュラム学習戦略を提案する。問題のサイズが同一のインスタンスを、MTR優先順位ルールの性能に基づいて導出された新たな難易度指標であるDTS(Differential Task Score)によって順序付けすることで、DRLエージェントの学習効率と解の品質を著しく向上させる。MTR性能が最悪から順に訓練することで、平均マクスパンをランダムな訓練順序と比較して3.2%短縮する。

ABSTRACT

Solving job shop scheduling problems (JSSPs) with a fixed strategy, such as a priority dispatching rule, may yield satisfactory results for several problem instances but, nevertheless, insufficient results for others. From this single-strategy perspective finding a near optimal solution to a specific JSSP varies in difficulty even if the machine setup remains the same. A recent intensively researched and promising method to deal with difficulty variability is Deep Reinforcement Learning (DRL), which dynamically adjusts an agent's planning strategy in response to difficult instances not only during training, but also when applied to new situations. In this paper, we further improve DLR as an underlying method by actively incorporating the variability of difficulty within the same problem size into the design of the learning process. We base our approach on a state-of-the-art methodology that solves JSSP by means of DRL and graph neural network embeddings. Our work supplements the training routine of the agent by a curriculum learning strategy that ranks the problem instances shown during training by a new metric of problem instance difficulty. Our results show that certain curricula lead to significantly better performances of the DRL solutions. Agents trained on these curricula beat the top performance of those trained on randomly distributed training data, reaching 3.2% shorter average makespans.

研究の動機と目的

  • 同じサイズのジョブショップスケジューリングインスタンスにおける難易度のばらつきが、効果的なDRL訓練を妨げるという問題に取り組む。
  • 固定された問題サイズ内での問題インスタンスの難易度を順序付ける意味のあるデータ駆動型指標を開発する。
  • ランダムな訓練順序を超えるDRLエージェントの性能を向上させるカリキュラム学習戦略を設計および評価する。
  • ハードなインスタンスから訓練することで、スケジューリング性能が向上することを実証的に検証する。

提案手法

  • MTR(Most Tasks Remaining)優先順位ディスpatchルールの問題インスタンス全体における相対的性能に基づいて、新たな難易度指標DTSを提案する。
  • DTSの降順(最も難しいものから)に訓練インスタンスを順序付け、DRL訓練のためのカリキュラムを構築する。
  • グラフニューラルネットワーク埋め込みを用いたDRLエージェントを採用し、マクスパン最小化に基づく報酬関数を用いてJSSPを解く。
  • キュレートされたカリキュラムでエージェントを訓練し、ランダムな訓練順序およびベースラインDRL手法と性能を比較する。
  • 訓練中の最適性ギャップの変化に対する各カリキュラム要素の局所的影響を評価するために、統計的分析を実施する。
  • 10~20件のジョブと5~10台のマシンを有する1,000インスタンスのベンチマークデータセットを用い、MTRを難易度の代理指標として使用する。

実験結果

リサーチクエスチョン

  • RQ1同じサイズのJSSPインスタンスに対して、データ駆動型の難易度指標を定義できるか?
  • RQ2難易度が低い順(最も難しいものから)にDRLエージェントを訓練することで、ランダムな順序と比較して解の品質が向上するか?
  • RQ3個々のカリキュラム要素がエージェントの学習軌道および最適性ギャップの低減に与える影響は何か?
  • RQ4MTR性能に基づくDTS指標は、JSSPにおける問題インスタンスの難易度を信頼できる指標として有効か?

主な発見

  • MTR性能が最悪から良い順に訓練したDRLエージェントは、ランダムな訓練順序と比較して平均マクスパンを3.2%短縮した。
  • 最も難しいインスタンスから訓練したエージェントが、他のすべてのカリキュラム設定よりも優れた全体的な性能を達成した。
  • DTS指標は相対的な難易度を効果的に捉えており、DTS値が高いほど複雑なインスタンスであり、解くためにより長い訓練期間を要することが分かった。
  • 学習曲線には初期段階で性能が低下する傾向が見られ、ハードなインスタンスは当初エージェントをより困難に挑戦させるが、高品質な解への収束が速くなる傾向がある。
  • 統計的分析により、DTSが高値(最も難しい)のカリキュラム要素が、簡単なインスタンスよりも頻度が高く、最適性ギャップの改善をもたらすことが確認された。
  • 結果として、固定された問題サイズ内でのカリキュラム学習が実現可能かつ有効であることが示された。特に、MTR性能のような代理指標に基づく場合に顕著である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。