[논문 리뷰] A Reinforcement Learning Environment For Job-Shop Scheduling
본 논문은 표준 벤치마크에서 디스패칭 규칙 및 기존 RL 방법보다 더 나은 성과를 달성하는 컴팩트한 상태 표현과 밀집 보상 함수를 갖춘 단일 에이전트 PPO 기반 DRL 환경을 제시하며, 최첨단 COP 성능에 근접한다.
Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.
연구 동기 및 목표
- 깊은 강화학습을 Job-Shop Scheduling(JSS)에 적용하여 해결이 어려운 COP 인스턴스를 처리하고 관련 인스턴스 간 학습을 지속하는 동기를 제시한다.
- JSS를 위한 단일 에이전트 디스패처 형식을 제안하고 Proximal Policy Optimization(PPO)으로 정책을 학습한다.
- 제한된 상태 표현을 통해 7-속성 per-job 행렬로Allocatability, 남은 시간, 휴지(Idle) 지표를 포착하여 전체 시간 최소화를 돕는 밀집한 보상을 설계한다.
- 탐색 공간 축소 및 문제 대칭성 고려를 도입해 학습 효율성을 향상시킨다.
- 벤치마크 인스턴스에서 디스패칭 규칙 및 기존 RL 방법 대비 실험적 성능 향상을 입증한다.
제안 방법
- 에이전트가 다음에 어떤 작업을 배정할지 선택하거나 시간을 진행시키기 위한 No-Op를 선택하는 방식으로 단일 에이전트 마코프 결정 과정(MDP)로 JSS를 모델링한다.
- 두 개의 MLP를 정책과 가치 함수에 대해 분리하여 PPO를 사용하고, 업데이트를 안정화하기 위해 클립된 목표를 학습한다.
- 스케줄링된 작업 길이에서 기계 아이들 타임을 뺀 값을 최대 작업 길이로 스케일링한 밀집 보상 R(s,a)를 제공하고, 이를 전체 시간 최소화와의 관련성으로 연결한다.
- 배치 가능성, 남은 시간, 아이들 메트릭을 포착하는 7속성 per-job 매트릭스의 컴팩트한 상태 표현을 도입하여 MWKR, FIFO와 같은 해석 가능한 디스패칭 규칙으로의 해석을 쉽게 한다.
- 불법 행동을 금지하는 액션 마스킹과 비최종 우선순위 부여 및 No-Op 제한과 같은 탐색 공간 축소를 적용해 탐색을 안내한다.
- OpenAI Gym으로 환경을 구현하고, RLLib/텐서플로우로 학습하며, WandB를 통한 하이퍼파라미터 튜닝을 수행한다.
실험 결과
연구 질문
- RQ1시간 제약 하에서 PPO 기반 DRL 접근 방식이 JSS를 해결하는 데 얼마나 효과적인가?
- RQ2컴팩트하고 해석 가능한 상태 표현과 밀집 보상이 이전의 RL 및 디스패칭 규칙 방법에 비해 학습과 성능을 가속화하는가?
- RQ3탐색 공간 축소와 No-Op 처리의 학습 효율성과 해법 품질에 어떤 영향을 미치는가?
- RQ4고정된 하이퍼파라미터로 Taillard 및 Demirkol 벤치마크 데이터세트 간 학습된 에이전트의 일반화 성능은 어떠한가?
주요 결과
| 데이터 세트 | 인스턴스 | 당사 | FIFO | MWKR | ( Zhang et al. 2020 ) | ( Han and Yang 2020 ) | OR Tools | 상한값 |
|---|---|---|---|---|---|---|---|---|
| Taillard | ta41 | 2208 | 2543 | 2632 | 2667 | 2450 | 2144 | 2005 |
| Taillard | ta42 | 2168 | 2578 | 2401 | 2664 | 2351 | 2071 | 1937 |
| Taillard | ta43 | 2086 | 2506 | 2385 | 2431 | — | 1967 | 1846 |
| Taillard | ta44 | 2261 | 2555 | 2532 | 2714 | — | 2094 | 1979 |
| Taillard | ta45 | 2227 | 2565 | 2431 | 2637 | — | 2032 | 2000 |
| Taillard | ta46 | 2349 | 2617 | 2485 | 2776 | — | 2129 | 2004 |
| Taillard | ta47 | 2101 | 2508 | 2301 | 2476 | — | 1952 | 1889 |
| Taillard | ta48 | 2267 | 2541 | 2350 | 2490 | — | 2091 | 1941 |
| Taillard | ta49 | 2154 | 2550 | 2474 | 2556 | — | 2089 | 1961 |
| Taillard | ta50 | 2216 | 2531 | 2496 | 2628 | — | 2010 | 1923 |
| Demirkol | dmu16 | 4188 | 4934 | 4550 | 4953 | 4414 | 3903 | 3751 |
| Demirkol | dmu17 | 4274 | 5014 | 4874 | 5379 | — | 3960 | 3814 |
| Demirkol | dmu18 | 4326 | 4936 | 4792 | 5100 | — | 4073 | 3844 |
| Demirkol | dmu19 | 4195 | 4902 | 4842 | 4889 | — | 3922 | 3764 |
| Demirkol | dmu20 | 4074 | 4539 | 4500 | 4859 | — | 3913 | 3703 |
- PPO 기반 DRL 접근 방식은 Taillard 및 Demirkol 인스턴스 전부에서 FIFO 및 MWKR 디스패칭 규칙보다 우수한 해를 산출한다.
- Taillard에서 MWKR 대비 평균 Make-span이 11%, Demirkol 인스턴스에서 12% 향상된다.
- 본 방법은 OR-Tools CP 솔버의 성능에 근접하되 이를 초과하지는 못해도 DRL이 이 설정에서 강력한 경쟁력을 보여줌을 시사한다.
- 환경 및 학습 설정은 동일 벤치마크에서 JSS에 대해 기존 문헌에서 보고된 이전 RL 방법들보다 더 나은 결과를 산출한다.
- 학습된 정책은 인스턴스별 훈련에도 불구하고 유사한 문제 구조를 가진 데이터세트 간 일반화를 보인다.
- 밀집 보상은 Make-span 개선과 상관관계가 있어 스케줄링 작업에서 DRL 학습 방향 설정에 적합함을 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.