Skip to main content
QUICK REVIEW

[论文解读] A Reinforcement Learning Environment For Job-Shop Scheduling

Pierre Tassel, Martin Gebser|arXiv (Cornell University)|Apr 8, 2021
Scheduling and Optimization Algorithms参考文献 20被引用 45
一句话总结

简要结论:本文提出了一个基于单智能体 PPO 的 DRL 环境用于作业车间调度,采用紧凑的状态表示和密集奖励,在标准基准上优于调度规则和先前的 RL 方法,向最先进的 COP 性能靠近。

ABSTRACT

Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.

研究动机与目标

  • 将深度强化学习用于作业车间调度(JSS),以处理不可解的 COP 实例并在相关实例之间实现终身学习。
  • 提出用于 JSS 的单智能体调度器表述并用近端策略优化(PPO)训练策略。
  • 设计紧凑、信息丰富的状态表示和与最小化工序总时长密切相关的密集奖励。
  • 引入搜索空间规约与问题对称性考量以提升学习效率。
  • 在 Taillard 与 Demirkol 的基准实例上展示相对于调度规则和先前 RL 方法的经验性能提升。

提出的方法

  • 将 JSS 模型为单智能体马尔可夫决策过程,智能体选择下一个要调度的作业或选择 No-Op 以推进时间。
  • 使用带有策略和价值函数的独立多层感知机(MLP)的近端策略优化(PPO),通过裁剪目标来稳定更新。
  • 提供基于已调度工序长度减去机器空闲时间的密集奖励 R(s,a),按最大工序长度进行标定;将该密度与最小化总工时相关性联系起来。
  • 引入7 属性的逐作业矩阵紧凑状态表示,以捕捉可分配性、剩余时间和空闲度量,使其易于解释为 MWKR、FIFO 等调度规则。
  • 采用动作屏蔽禁止非法动作,并通过非最终优先级和 No-Op 限制等搜索空间规约引导探索。
  • 使用 OpenAI Gym 实现环境,使用 RLLib/TensorFlow 进行训练,并通过 WandB 进行超参数调优。

实验结果

研究问题

  • RQ1在时间约束下,基于单智能体 PPO 的 DRL 方法在解决 JSS 问题上的有效性如何?
  • RQ2紧凑且可解释的状态表示与密集奖励是否能相对于先前的 RL 和调度规则方法提升学习速度和性能?
  • RQ3搜索空间规约和 No-Op 处理对学习效率和解的质量有何影响?
  • RQ4在固定超参数下,训练好的智能体在具有相似问题结构的基准数据集(Taillard 与 Demirkol)上的泛化能力如何?

主要发现

数据集实例OursFIFOMWKR( Zhang et al. 2020 )( Han and Yang 2020 )OR Tools上界
Taillardta412208254326322667245021442005
Taillardta422168257824012664235120711937
Taillardta43208625062385243119671846
Taillardta44226125552532271420941979
Taillardta45222725652431263720322000
Taillardta46234926172485277621292004
Taillardta47210125082301247619521889
Taillardta48226725412350249020911941
Taillardta49215425502474255620891961
Taillardta50221625312496262820101923
Demirkoldmu164188493445504953441439033751
Demirkoldmu17427450144874537939603814
Demirkoldmu18432649364792510040733844
Demirkoldmu19419549024842488939223764
Demirkoldmu20407445394500485939133703
  • 基于 PPO 的 DRL 方法在所有评估的 Taillard 与 Demirkol 实例上均优于 FIFO 和 MWKR 调度规则的解。
  • 在 Taillard 上相较于 MWKR 的平均工时缩短为 11%,在 Demirkol 实例上为 12%。
  • 该方法接近但未超越 OR-Tools CP 求解器的性能,显示在该设置下 DRL 的竞争力很强。
  • 该环境与训练设置产生的结果超越了文献中在同一基准上的先前 RL 方法。
  • 学习到的策略在具有相似问题结构的数据集之间具有泛化能力,尽管是针对特定实例进行训练。
  • 密集奖励与最小化工时相关,支持其在调度任务中引导 DRL 的适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。