[论文解读] Curriculum Learning in Job Shop Scheduling using Reinforcement Learning
本文提出了一种用于作业车间调度(JSSP)的深度强化学习(DRL)课程学习策略,通过基于MTR优先调度规则性能的新难度度量标准——DTS(差异任务得分)——对相同规模的问题实例进行排序。在按MTR性能从差到好排序的实例上训练DRL智能体,显著提升了学习效率和解的质量,与随机训练顺序相比,平均makespan减少了3.2%。
Solving job shop scheduling problems (JSSPs) with a fixed strategy, such as a priority dispatching rule, may yield satisfactory results for several problem instances but, nevertheless, insufficient results for others. From this single-strategy perspective finding a near optimal solution to a specific JSSP varies in difficulty even if the machine setup remains the same. A recent intensively researched and promising method to deal with difficulty variability is Deep Reinforcement Learning (DRL), which dynamically adjusts an agent's planning strategy in response to difficult instances not only during training, but also when applied to new situations. In this paper, we further improve DLR as an underlying method by actively incorporating the variability of difficulty within the same problem size into the design of the learning process. We base our approach on a state-of-the-art methodology that solves JSSP by means of DRL and graph neural network embeddings. Our work supplements the training routine of the agent by a curriculum learning strategy that ranks the problem instances shown during training by a new metric of problem instance difficulty. Our results show that certain curricula lead to significantly better performances of the DRL solutions. Agents trained on these curricula beat the top performance of those trained on randomly distributed training data, reaching 3.2% shorter average makespans.
研究动机与目标
- 为解决相同规模的作业车间调度实例之间难度差异带来的问题,以提升DRL训练的有效性。
- 开发一种有意义的、基于数据的度量标准,用于在固定问题规模内对问题实例的难度进行排序。
- 设计并评估一种课程学习策略,以在JSSP中超越随机训练顺序,提升DRL智能体的性能。
- 通过实证验证,先在较难实例上训练可带来更优的调度性能。
提出的方法
- 基于MTR(剩余任务最多)优先调度规则在不同问题实例上的相对性能,提出一种新的难度度量标准DTS。
- 按DTS值从高到低(最困难的在前)对训练实例进行排序,构建DRL训练的课程。
- 采用带有图神经网络嵌入的DRL智能体求解JSSP,奖励函数基于makespan最小化。
- 在筛选后的课程上训练智能体,并与随机训练顺序及基线DRL方法进行性能比较。
- 通过统计分析评估每个课程元素在训练过程中对最优性差距变化的局部影响。
- 使用包含1,000个JSSP实例的基准数据集,问题规模为10–20个作业和5–10台机器,以MTR性能作为难度的代理指标。
实验结果
研究问题
- RQ1能否为相同规模的JSSP实例定义一种基于数据的难度度量标准,以指导课程学习?
- RQ2在按难度递增顺序(最困难的在前)的课程上训练DRL智能体,是否能相比随机顺序提升解的质量?
- RQ3单个课程元素对智能体学习轨迹和最优性差距减少的影响是什么?
- RQ4基于MTR性能的DTS度量标准是否是JSSP中问题实例难度的可靠指标?
主要发现
- 在按MTR性能从差到好排序的课程上训练DRL智能体,相比随机训练顺序,平均makespan减少了3.2%。
- 先在最困难实例上训练的智能体取得了最佳整体性能,优于所有其他课程配置。
- DTS度量标准有效捕捉了相对难度,DTS值越高,实例越复杂,需要更长的训练时间才能解决。
- 学习曲线显示早期训练阶段性能出现下降,表明困难实例最初对智能体构成更大挑战,但能更快收敛到高质量解。
- 统计分析证实,DTS值高(最困难)的课程元素比简单实例引发更频繁且更显著的最优性差距改善。
- 结果表明,在固定问题规模内实施课程学习是可行且有效的,尤其当以MTR性能等代理指标作为指导时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。