[论文解读] A Reinforcement Learning Environment For Job-Shop Scheduling
简要结论:本文提出了一个基于单智能体 PPO 的 DRL 环境用于作业车间调度,采用紧凑的状态表示和密集奖励,在标准基准上优于调度规则和先前的 RL 方法,向最先进的 COP 性能靠近。
Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.
研究动机与目标
- 将深度强化学习用于作业车间调度(JSS),以处理不可解的 COP 实例并在相关实例之间实现终身学习。
- 提出用于 JSS 的单智能体调度器表述并用近端策略优化(PPO)训练策略。
- 设计紧凑、信息丰富的状态表示和与最小化工序总时长密切相关的密集奖励。
- 引入搜索空间规约与问题对称性考量以提升学习效率。
- 在 Taillard 与 Demirkol 的基准实例上展示相对于调度规则和先前 RL 方法的经验性能提升。
提出的方法
- 将 JSS 模型为单智能体马尔可夫决策过程,智能体选择下一个要调度的作业或选择 No-Op 以推进时间。
- 使用带有策略和价值函数的独立多层感知机(MLP)的近端策略优化(PPO),通过裁剪目标来稳定更新。
- 提供基于已调度工序长度减去机器空闲时间的密集奖励 R(s,a),按最大工序长度进行标定;将该密度与最小化总工时相关性联系起来。
- 引入7 属性的逐作业矩阵紧凑状态表示,以捕捉可分配性、剩余时间和空闲度量,使其易于解释为 MWKR、FIFO 等调度规则。
- 采用动作屏蔽禁止非法动作,并通过非最终优先级和 No-Op 限制等搜索空间规约引导探索。
- 使用 OpenAI Gym 实现环境,使用 RLLib/TensorFlow 进行训练,并通过 WandB 进行超参数调优。
实验结果
研究问题
- RQ1在时间约束下,基于单智能体 PPO 的 DRL 方法在解决 JSS 问题上的有效性如何?
- RQ2紧凑且可解释的状态表示与密集奖励是否能相对于先前的 RL 和调度规则方法提升学习速度和性能?
- RQ3搜索空间规约和 No-Op 处理对学习效率和解的质量有何影响?
- RQ4在固定超参数下,训练好的智能体在具有相似问题结构的基准数据集(Taillard 与 Demirkol)上的泛化能力如何?
主要发现
| 数据集 | 实例 | Ours | FIFO | MWKR | ( Zhang et al. 2020 ) | ( Han and Yang 2020 ) | OR Tools | 上界 |
|---|---|---|---|---|---|---|---|---|
| Taillard | ta41 | 2208 | 2543 | 2632 | 2667 | 2450 | 2144 | 2005 |
| Taillard | ta42 | 2168 | 2578 | 2401 | 2664 | 2351 | 2071 | 1937 |
| Taillard | ta43 | 2086 | 2506 | 2385 | 2431 | — | 1967 | 1846 |
| Taillard | ta44 | 2261 | 2555 | 2532 | 2714 | — | 2094 | 1979 |
| Taillard | ta45 | 2227 | 2565 | 2431 | 2637 | — | 2032 | 2000 |
| Taillard | ta46 | 2349 | 2617 | 2485 | 2776 | — | 2129 | 2004 |
| Taillard | ta47 | 2101 | 2508 | 2301 | 2476 | — | 1952 | 1889 |
| Taillard | ta48 | 2267 | 2541 | 2350 | 2490 | — | 2091 | 1941 |
| Taillard | ta49 | 2154 | 2550 | 2474 | 2556 | — | 2089 | 1961 |
| Taillard | ta50 | 2216 | 2531 | 2496 | 2628 | — | 2010 | 1923 |
| Demirkol | dmu16 | 4188 | 4934 | 4550 | 4953 | 4414 | 3903 | 3751 |
| Demirkol | dmu17 | 4274 | 5014 | 4874 | 5379 | — | 3960 | 3814 |
| Demirkol | dmu18 | 4326 | 4936 | 4792 | 5100 | — | 4073 | 3844 |
| Demirkol | dmu19 | 4195 | 4902 | 4842 | 4889 | — | 3922 | 3764 |
| Demirkol | dmu20 | 4074 | 4539 | 4500 | 4859 | — | 3913 | 3703 |
- 基于 PPO 的 DRL 方法在所有评估的 Taillard 与 Demirkol 实例上均优于 FIFO 和 MWKR 调度规则的解。
- 在 Taillard 上相较于 MWKR 的平均工时缩短为 11%,在 Demirkol 实例上为 12%。
- 该方法接近但未超越 OR-Tools CP 求解器的性能,显示在该设置下 DRL 的竞争力很强。
- 该环境与训练设置产生的结果超越了文献中在同一基准上的先前 RL 方法。
- 学习到的策略在具有相似问题结构的数据集之间具有泛化能力,尽管是针对特定实例进行训练。
- 密集奖励与最小化工时相关,支持其在调度任务中引导 DRL 的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。