[논문 리뷰] Learning Improvement Heuristics for Solving Routing Problems
이 논문은 자기 주의 기반 강화 학습 정책을 트레이닝하여 라우팅 문제의 개선 휴리스틱을 학습하고, TSP와 CVRP에서 기존 DL 기반 방법들을 능가하며 크기와 데이터 세트에 걸쳐 일반화한다.
Recent studies in using deep learning to solve routing problems focus on construction heuristics, the solutions of which are still far from optimality. Improvement heuristics have great potential to narrow this gap by iteratively refining a solution. However, classic improvement heuristics are all guided by hand-crafted rules which may limit their performance. In this paper, we propose a deep reinforcement learning framework to learn the improvement heuristics for routing problems. We design a self-attention based deep architecture as the policy network to guide the selection of next solution. We apply our method to two important routing problems, i.e. travelling salesman problem (TSP) and capacitated vehicle routing problem (CVRP). Experiments show that our method outperforms state-of-the-art deep learning based approaches. The learned policies are more effective than the traditional hand-crafted ones, and can be further enhanced by simple diversifying strategies. Moreover, the policies generalize well to different problem sizes, initial solutions and even real-world dataset.
연구 동기 및 목표
- 라우팅 문제의 구성을 넘어 개선 연산자를 학습하여 솔루션을 향상시키려는 동기를 부여한다.
- 네트워크 이웃 탐색에서 다음 개선을 선택하기 위한 정책을 직접 학습하는 RL 프레임워크를 제안한다.
- 2-opt 및 노드 스왑과 같은 쌍별 로컬 연산자를 처리하기 위해 자기 주의 기반 정책 네트워크를 개발한다.
- 프레임워크를 TSP 및 CVRP에 적용하고 최첨단 기준선과 비교한다.
- 다양한 문제 크기, 초기 솔루션, 실제 데이터 세트에 대한 일반화를 시연한다.
제안 방법
- 개선 휴리스틱을 현재 솔루션을 상태로, 적용할 노드 쌍을 행동으로 하는 계속되는 MDP로 형상화한다.
- 보상은 지금까지 발견된 최상의 incumbents의 점진적 개선으로, 지속적 향상을 장려한다.
- 노드 쌍을 선택하여 작동할 확률 행렬을 계산하기 위해 노드 임베딩과 노드 쌍 선택 모듈이 결합된 자기 주의 기반 정책 네트워크를 사용한다.
- 노드 임베딩에서 위치 인코딩과 자기 주의를 포함하여 순서 정보를 포착한다.
- 노드 쌍 선택에서 전역 그래프 정보를 노드 임베딩과 융합하고, 실현 가능한 쌍들에 대해 마스킹된 소프트맥스를 적용한다.
- n-step 수익과 연속 작업 설정을 사용하는 배우-비평가 알고리즘(REINFORCE with bootstrapped critic)으로 학습한다.
실험 결과
연구 질문
- RQ1학습된 개선 휴리스틱 정책이 이웃 탐색에서 수작업 규칙보다 더 나은 성능을 보일 수 있는가?
- RQ2자기 주의 기반 정책이 TSP와 CVRP에서 서로 다른 문제 크기와 초기 솔루션에 대해 얼마나 일반화되는가?
- RQ3학습된 개선 정책이 합성 인스턴스를 넘어 실제 데이터 세트에 이전될 수 있는가?
- RQ4다른 쌍별 연산자(예: 2-opt, 노드 스왑)가 학습된 정책의 성능에 어떤 영향을 미치는가?
- RQ5고정 실행 횟수에서 다중 실행 또는 다중 정책 전략으로 다양화가 솔루션 품질을 더욱 향상시키는가?
주요 결과
- 학습된 개선 정책은 TSP 및 CVRP에서 최첨단 DL 기반 접근법을 크게 능가한다.
- RL 프레임워크에서 학습된 정책은 전통적인 수작업 규칙(초기 개선 및 최적 개선)을 인스턴스 크기에 관계없이 능가한다.
- 허용된 단계 한도를 늘리면 최적성 격차가 감소하며, 작은 TSP 인스턴스에서 Concorde와 유사한 품질에 근접하고 더 큰 CVRP 인스턴스에서 여러 대안들보다 우수하다.
- 본 방법은 다른 DL 기반 방법과 비교해 실행 시간이 경쟁력이 있으며, 문제 크기에 따라 스케일링이 다른 기준선들보다 더 우수하다.
- 다양화(다중 실행 또는 다중 정책 전략)를 통해 솔루션 품질이 더 향상되며, 고정 실행 수에서 일반적으로 다중 실행이 다중 정책보다 강한 이점을 보인다.
- 정책은 서로 다른 문제 크기, 초기 솔루션 및 실제 데이터 세트에 일반화된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.