Skip to main content
QUICK REVIEW

[논문 리뷰] A Reinforcement Learning Environment For Job-Shop Scheduling

Pierre Tassel, Martin Gebser|arXiv (Cornell University)|2021. 04. 08.
Scheduling and Optimization Algorithms참고 문헌 20인용 수 45
한 줄 요약

본 논문은 표준 벤치마크에서 디스패칭 규칙 및 기존 RL 방법보다 더 나은 성과를 달성하는 컴팩트한 상태 표현과 밀집 보상 함수를 갖춘 단일 에이전트 PPO 기반 DRL 환경을 제시하며, 최첨단 COP 성능에 근접한다.

ABSTRACT

Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.

연구 동기 및 목표

  • 깊은 강화학습을 Job-Shop Scheduling(JSS)에 적용하여 해결이 어려운 COP 인스턴스를 처리하고 관련 인스턴스 간 학습을 지속하는 동기를 제시한다.
  • JSS를 위한 단일 에이전트 디스패처 형식을 제안하고 Proximal Policy Optimization(PPO)으로 정책을 학습한다.
  • 제한된 상태 표현을 통해 7-속성 per-job 행렬로Allocatability, 남은 시간, 휴지(Idle) 지표를 포착하여 전체 시간 최소화를 돕는 밀집한 보상을 설계한다.
  • 탐색 공간 축소 및 문제 대칭성 고려를 도입해 학습 효율성을 향상시킨다.
  • 벤치마크 인스턴스에서 디스패칭 규칙 및 기존 RL 방법 대비 실험적 성능 향상을 입증한다.

제안 방법

  • 에이전트가 다음에 어떤 작업을 배정할지 선택하거나 시간을 진행시키기 위한 No-Op를 선택하는 방식으로 단일 에이전트 마코프 결정 과정(MDP)로 JSS를 모델링한다.
  • 두 개의 MLP를 정책과 가치 함수에 대해 분리하여 PPO를 사용하고, 업데이트를 안정화하기 위해 클립된 목표를 학습한다.
  • 스케줄링된 작업 길이에서 기계 아이들 타임을 뺀 값을 최대 작업 길이로 스케일링한 밀집 보상 R(s,a)를 제공하고, 이를 전체 시간 최소화와의 관련성으로 연결한다.
  • 배치 가능성, 남은 시간, 아이들 메트릭을 포착하는 7속성 per-job 매트릭스의 컴팩트한 상태 표현을 도입하여 MWKR, FIFO와 같은 해석 가능한 디스패칭 규칙으로의 해석을 쉽게 한다.
  • 불법 행동을 금지하는 액션 마스킹과 비최종 우선순위 부여 및 No-Op 제한과 같은 탐색 공간 축소를 적용해 탐색을 안내한다.
  • OpenAI Gym으로 환경을 구현하고, RLLib/텐서플로우로 학습하며, WandB를 통한 하이퍼파라미터 튜닝을 수행한다.

실험 결과

연구 질문

  • RQ1시간 제약 하에서 PPO 기반 DRL 접근 방식이 JSS를 해결하는 데 얼마나 효과적인가?
  • RQ2컴팩트하고 해석 가능한 상태 표현과 밀집 보상이 이전의 RL 및 디스패칭 규칙 방법에 비해 학습과 성능을 가속화하는가?
  • RQ3탐색 공간 축소와 No-Op 처리의 학습 효율성과 해법 품질에 어떤 영향을 미치는가?
  • RQ4고정된 하이퍼파라미터로 Taillard 및 Demirkol 벤치마크 데이터세트 간 학습된 에이전트의 일반화 성능은 어떠한가?

주요 결과

데이터 세트인스턴스당사FIFOMWKR( Zhang et al. 2020 )( Han and Yang 2020 )OR Tools상한값
Taillardta412208254326322667245021442005
Taillardta422168257824012664235120711937
Taillardta43208625062385243119671846
Taillardta44226125552532271420941979
Taillardta45222725652431263720322000
Taillardta46234926172485277621292004
Taillardta47210125082301247619521889
Taillardta48226725412350249020911941
Taillardta49215425502474255620891961
Taillardta50221625312496262820101923
Demirkoldmu164188493445504953441439033751
Demirkoldmu17427450144874537939603814
Demirkoldmu18432649364792510040733844
Demirkoldmu19419549024842488939223764
Demirkoldmu20407445394500485939133703
  • PPO 기반 DRL 접근 방식은 Taillard 및 Demirkol 인스턴스 전부에서 FIFO 및 MWKR 디스패칭 규칙보다 우수한 해를 산출한다.
  • Taillard에서 MWKR 대비 평균 Make-span이 11%, Demirkol 인스턴스에서 12% 향상된다.
  • 본 방법은 OR-Tools CP 솔버의 성능에 근접하되 이를 초과하지는 못해도 DRL이 이 설정에서 강력한 경쟁력을 보여줌을 시사한다.
  • 환경 및 학습 설정은 동일 벤치마크에서 JSS에 대해 기존 문헌에서 보고된 이전 RL 방법들보다 더 나은 결과를 산출한다.
  • 학습된 정책은 인스턴스별 훈련에도 불구하고 유사한 문제 구조를 가진 데이터세트 간 일반화를 보인다.
  • 밀집 보상은 Make-span 개선과 상관관계가 있어 스케줄링 작업에서 DRL 학습 방향 설정에 적합함을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.