QUICK REVIEW

[论文解读] A Reinforcement Learning Environment For Job-Shop Scheduling

Pierre Tassel, Martin Gebser|arXiv (Cornell University)|Apr 8, 2021

Scheduling and Optimization Algorithms参考文献 20被引用 45

一句话总结

简要结论：本文提出了一个基于单智能体 PPO 的 DRL 环境用于作业车间调度，采用紧凑的状态表示和密集奖励，在标准基准上优于调度规则和先前的 RL 方法，向最先进的 COP 性能靠近。

ABSTRACT

Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.

研究动机与目标

将深度强化学习用于作业车间调度（JSS），以处理不可解的 COP 实例并在相关实例之间实现终身学习。
提出用于 JSS 的单智能体调度器表述并用近端策略优化（PPO）训练策略。
设计紧凑、信息丰富的状态表示和与最小化工序总时长密切相关的密集奖励。
引入搜索空间规约与问题对称性考量以提升学习效率。
在 Taillard 与 Demirkol 的基准实例上展示相对于调度规则和先前 RL 方法的经验性能提升。

提出的方法

将 JSS 模型为单智能体马尔可夫决策过程，智能体选择下一个要调度的作业或选择 No-Op 以推进时间。
使用带有策略和价值函数的独立多层感知机（MLP）的近端策略优化（PPO），通过裁剪目标来稳定更新。
提供基于已调度工序长度减去机器空闲时间的密集奖励 R(s,a)，按最大工序长度进行标定；将该密度与最小化总工时相关性联系起来。
引入7 属性的逐作业矩阵紧凑状态表示，以捕捉可分配性、剩余时间和空闲度量，使其易于解释为 MWKR、FIFO 等调度规则。
采用动作屏蔽禁止非法动作，并通过非最终优先级和 No-Op 限制等搜索空间规约引导探索。
使用 OpenAI Gym 实现环境，使用 RLLib/TensorFlow 进行训练，并通过 WandB 进行超参数调优。

实验结果

研究问题

RQ1在时间约束下，基于单智能体 PPO 的 DRL 方法在解决 JSS 问题上的有效性如何？
RQ2紧凑且可解释的状态表示与密集奖励是否能相对于先前的 RL 和调度规则方法提升学习速度和性能？
RQ3搜索空间规约和 No-Op 处理对学习效率和解的质量有何影响？
RQ4在固定超参数下，训练好的智能体在具有相似问题结构的基准数据集（Taillard 与 Demirkol）上的泛化能力如何？

主要发现

数据集	实例	Ours	FIFO	MWKR	( Zhang et al. 2020 )	( Han and Yang 2020 )	OR Tools	上界
Taillard	ta41	2208	2543	2632	2667	2450	2144	2005
Taillard	ta42	2168	2578	2401	2664	2351	2071	1937
Taillard	ta43	2086	2506	2385	2431	—	1967	1846
Taillard	ta44	2261	2555	2532	2714	—	2094	1979
Taillard	ta45	2227	2565	2431	2637	—	2032	2000
Taillard	ta46	2349	2617	2485	2776	—	2129	2004
Taillard	ta47	2101	2508	2301	2476	—	1952	1889
Taillard	ta48	2267	2541	2350	2490	—	2091	1941
Taillard	ta49	2154	2550	2474	2556	—	2089	1961
Taillard	ta50	2216	2531	2496	2628	—	2010	1923
Demirkol	dmu16	4188	4934	4550	4953	4414	3903	3751
Demirkol	dmu17	4274	5014	4874	5379	—	3960	3814
Demirkol	dmu18	4326	4936	4792	5100	—	4073	3844
Demirkol	dmu19	4195	4902	4842	4889	—	3922	3764
Demirkol	dmu20	4074	4539	4500	4859	—	3913	3703

基于 PPO 的 DRL 方法在所有评估的 Taillard 与 Demirkol 实例上均优于 FIFO 和 MWKR 调度规则的解。
在 Taillard 上相较于 MWKR 的平均工时缩短为 11%，在 Demirkol 实例上为 12%。
该方法接近但未超越 OR-Tools CP 求解器的性能，显示在该设置下 DRL 的竞争力很强。
该环境与训练设置产生的结果超越了文献中在同一基准上的先前 RL 方法。
学习到的策略在具有相似问题结构的数据集之间具有泛化能力，尽管是针对特定实例进行训练。
密集奖励与最小化工时相关，支持其在调度任务中引导 DRL 的适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。