[논문 리뷰] Learning to Search Feasible and Infeasible Regions of Routing Problems with Flexible Neural k-Opt
NeuOpt 는 VRPs에 대해 유연한 k-opt 교환을 수행하는 학습-대-탐색 솔버이며, GIRE를 도입해 실행 가능한 영역과 실행 불가능한 영역 모두를 탐색하여 기존 L2S, L2C, L2P 방법보다 TSP 및 CVRP에서 성능을 향상시킨다.
In this paper, we present Neural k-Opt (NeuOpt), a novel learning-to-search (L2S) solver for routing problems. It learns to perform flexible k-opt exchanges based on a tailored action factorization method and a customized recurrent dual-stream decoder. As a pioneering work to circumvent the pure feasibility masking scheme and enable the autonomous exploration of both feasible and infeasible regions, we then propose the Guided Infeasible Region Exploration (GIRE) scheme, which supplements the NeuOpt policy network with feasibility-related features and leverages reward shaping to steer reinforcement learning more effectively. Additionally, we equip NeuOpt with Dynamic Data Augmentation (D2A) for more diverse searches during inference. Extensive experiments on the Traveling Salesman Problem (TSP) and Capacitated Vehicle Routing Problem (CVRP) demonstrate that our NeuOpt not only significantly outstrips existing (masking-based) L2S solvers, but also showcases superiority over the learning-to-construct (L2C) and learning-to-predict (L2P) solvers. Notably, we offer fresh perspectives on how neural solvers can handle VRP constraints. Our code is available: https://github.com/yining043/NeuOpt.
연구 동기 및 목표
- VRP를 위한 기존의 학습-대-탐색(L2S) 솔버의 한계를 동기 부여하고 해결한다.
- 임의의 k ≥ 2를 처리할 수 있는 유연한 신경망 k-opt 프레임워크(NeuOpt)를 개발한다.
- 실행 가능 및 실행 불가능한 영역을 모두 탐색하도록 GIRE를 도입하고 보상 설계를 통해 RL을 안내한다.
- 추론 중 탐색 다양성을 증가시키기 위해 Dynamic Data Augmentation(D2A)을 제안한다.
- TSP 및 CVRP에서 NeuOpt와 GIRE의 우수성을 L2C, L2P 및 강력한 베이스라인 대비 시연한다.
제안 방법
- 임의의 k≥2를 실현하기 위한 k-opt 교환을 S-мove, I-move, E-move로 액션 분해하는 Neural k-Opt(NeuOpt)를 제안한다.
- 연속 기초 이동을 모델링하고 제거된 간선과 추가된 간선 간의 의존성을 포착하기 위해 Recurrent Dual-Stream(RDS) 디코더를 사용한다.
- 실행 가능 영역 너머의 탐색을 가능하게 하는 Guided Infeasible Region Exploration(GIRE)를 정책에 보강하고 경계 탐색을 촉진하기 위해 보상 설계를 적용한다.
- 추론 중 검색 다양화를 위해 Dynamic Data Augmentation(D2A)을 활용하여 국지 최적해를 탈출한다.
- 이전 L2S RL 방법을 바탕으로 맞춤형 목표 및 보상 구조를 사용하여 강화학습으로 NeuOpt를 학습시킨다.
실험 결과
연구 질문
- RQ1신경망 솔버가 VRP에서 임의의 k≥2에 대해 유연하게 k-opt 교환을 수행할 수 있는가?
- RQ2탐색 중 실행 불가능한 영역을 탐색하는 것이 가능한 영역 마스킹만 하는 것보다 VRP의 해 질을 향상시킬 수 있는가?
- RQ3D2A와 GIRE의 조합이 TSP 및 CVRP에서 탐색 다양성과 더 나은 해로의 수렴을 개선하는가?
- RQ4표준 VRP 벤치마크에서 NeuOpt가 기존 L2S, L2C, L2P 방법 및 전통적 솔버와 어떻게 비교되는가?
주요 결과
- NeuOpt는 보고된 실험에서 기존(마스킹 기반) L2S 솔버를 TSP 및 CVRP에서 크게 능가한다.
- GIRE는 엄격히 실행 가능 영역을 넘어선 탐색을 가능하게 하고 보상 설계를 사용해 RL을 실행 가능/불가능 경계로 유도하여 탐색 효과를 향상시킨다.
- D2A 추론은 탐색 다양성을 증가시키고 국소 최적해를 벗어나게 하여 다양한 k-opt 구성에서 더 나은 해를 도출한다.
- NeuOpt는 강력한 L2C 및 L2P 방법과 CVRP에서 LKH-3 솔버에 필적하거나 우수한 성능을 달성한다.
- 실험은 NeuOpt의 VRP 제약 조건 처리 능력을 보여주고 제약된 라우팅 문제에 대한 신경망 솔버에 대한 새로운 시각을 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.