QUICK REVIEW

[논문 리뷰] Curriculum Learning in Job Shop Scheduling using Reinforcement Learning

Constantin Waubert de Puiseau, Hasan Tercan|arXiv (Cornell University)|2023. 01. 01.

Scheduling and Optimization Algorithms인용 수 2

한 줄 요약

이 논문은 MTR 우선순위 딜레버리 규칙의 성능에서 유도된 새로운 난이도 지표인 DTS(Differential Task Score)를 기반으로 동일 크기의 문제 인스턴스를 순위 매겨, 작업장 스케줄링(JSSP)에서 딥 강화학습(DRL)을 위한 커리큘럼 학습 전략을 제안한다. MTR 성능이 열악한 순서에서부터 좋은 순서로 나열된 인스턴스를 기반으로 DRL 에이전트를 훈련시키면 학습 효율성과 해의 품질이 크게 향상되며, 무작위 훈련 순서 대비 평균 제작기간(makespan)을 3.2% 단축시킨다.

ABSTRACT

Solving job shop scheduling problems (JSSPs) with a fixed strategy, such as a priority dispatching rule, may yield satisfactory results for several problem instances but, nevertheless, insufficient results for others. From this single-strategy perspective finding a near optimal solution to a specific JSSP varies in difficulty even if the machine setup remains the same. A recent intensively researched and promising method to deal with difficulty variability is Deep Reinforcement Learning (DRL), which dynamically adjusts an agent's planning strategy in response to difficult instances not only during training, but also when applied to new situations. In this paper, we further improve DLR as an underlying method by actively incorporating the variability of difficulty within the same problem size into the design of the learning process. We base our approach on a state-of-the-art methodology that solves JSSP by means of DRL and graph neural network embeddings. Our work supplements the training routine of the agent by a curriculum learning strategy that ranks the problem instances shown during training by a new metric of problem instance difficulty. Our results show that certain curricula lead to significantly better performances of the DRL solutions. Agents trained on these curricula beat the top performance of those trained on randomly distributed training data, reaching 3.2% shorter average makespans.

연구 동기 및 목표

동일한 크기의 작업장 스케줄링 인스턴스 간 난이도의 변동성을 다루기 위해, 효과적인 DRL 훈련을 방해하는 문제를 해결한다.
고정된 문제 크기 내에서 문제 인스턴스 난이도를 순위 매길 수 있는 의미 있는, 데이터 기반의 지표를 개발한다.
랜덤 훈련 순서를 초월하여 DRL 에이전트 성능을 향상시키는 커리큘럼 학습 전략을 설계하고 평가한다.
먼저 더 어려운 인스턴스에서 훈련하는 것이 더 우수한 스케줄링 성능을 이끌어내는지 경험적으로 검증한다.

제안 방법

MTR(Most Tasks Remaining) 우선순위 딜레버리 규칙이 문제 인스턴스 간 상대적 성능에 기반한 새로운 난이도 지표인 DTS를 제안한다.
DTS 기준 내림차순으로(가장 어려운 것부터) 훈련 인스턴스를 순위 매겨 DRL 훈련을 위한 커리큘럼을 구성한다.
그래프 신경망 임bedding을 사용하는 DRL 에이전트를 활용하여 JSSP를 해결하며, 제작기간 최소화 기반의 보상 함수를 적용한다.
정제된 커리큘럼을 기반으로 에이전트를 훈련하고, 무작위 훈련 순서 및 기준 DRL 방법과의 성능을 비교한다.
훈련 중 최적성 갭 변화에 대한 각 커리큘럼 요소의 국소적 영향을 평가하기 위해 통계 분석을 수행한다.
10~20개의 작업과 5~10대의 기계를 포함하는 1,000개의 JSSP 인스턴스로 구성된 벤치마크 데이터셋을 사용하며, 난이도의 대체 지표로 MTR를 활용한다.

실험 결과

연구 질문

RQ1동일한 크기의 JSSP 인스턴스에 대해 커리큘럼 학습을 이끄는 데 사용할 수 있는 데이터 기반 난이도 지표를 정의할 수 있는가?
RQ2난이도가 증가하는 순서(가장 어려운 것부터)로 정렬된 커리큘럼을 사용해 DRL 에이전트를 훈련하면, 무작위 순서 대비 해의 품질이 향상되는가?
RQ3각 커리큘럼 요소가 에이전트의 학습 궤적과 최적성 갭 감소에 미치는 영향은 어떠한가?
RQ4MTR 성능에 기반한 DTS 지표는 JSSP에서 문제 인스턴스 난이도를 신뢰할 수 있는 지표로 활용될 수 있는가?

주요 결과

MTR 성능이 열악한 순서에서부터 좋은 순서로 나열된 인스턴스를 기반으로 DRL 에이전트를 훈련시킨 결과, 무작위 훈련 순서 대비 평균 제작기간이 3.2% 감소했다.
가장 어려운 인스턴스에서 먼저 훈련한 에이전트가 가장 우수한 전반적 성능을 기록했으며, 다른 모든 커리큘럼 구성보다 뛰어났다.
DTS 지표는 상대적 난이도를 효과적으로 포착했으며, 높은 DTS 값은 더 복잡한 인스턴스를 나타내며, 이를 해결하기 위해 더 긴 훈련 기간이 필요하다는 점을 반영했다.
학습 곡선에서 초기 훈련 단계에서 성능 저하가 관찰되어, 어려운 인스턴스가 처음에는 에이전트에게 더 큰 과제를 주지만, 빠르게 고품질 해에 수렴하는 경향을 보였다.
통계 분석을 통해 DTS가 높은(가장 어려운) 커리큘럼 요소가 더 자주이고 더 크게 최적성 갭을 개선하는 것으로 확인되었다.
결과적으로, 고정된 문제 크기 내에서의 커리큘럼 학습은 실현 가능하고 효과적이며, 특히 MTR 성능과 같은 대체 지표를 기반으로 할 경우 더욱 유의미한 성과를 낼 수 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.