QUICK REVIEW

[논문 리뷰] Learning 2-opt Heuristics for the Traveling Salesman Problem via Deep Reinforcement Learning

Paulo Roberto de Oliveira da Costa, Jason Rhuggenaath|arXiv (Cornell University)|2020. 04. 03.

Vehicle Routing Optimization Methods참고 문헌 26인용 수 71

한 줄 요약

논문은 정책 그레이디언트 기반 심층 RL 모델을 학습시켜 Euclidean TSP에 대해 2-opt 개선 동작을 학습하고, 포인터 어텐션 디코더와 듀얼 인코더를 사용하여 무작위 시작점에서 거의 최적해를 도출한다. 이전 DL 방법보다 수렴 속도가 빠르고 성능이 좋으며 일반적인 k-opt 동작에 적응한다.

ABSTRACT

Recent works using deep learning to solve the Traveling Salesman Problem (TSP) have focused on learning construction heuristics. Such approaches find TSP solutions of good quality but require additional procedures such as beam search and sampling to improve solutions and achieve state-of-the-art performance. However, few studies have focused on improvement heuristics, where a given solution is improved until reaching a near-optimal one. In this work, we propose to learn a local search heuristic based on 2-opt operators via deep reinforcement learning. We propose a policy gradient algorithm to learn a stochastic policy that selects 2-opt operations given a current solution. Moreover, we introduce a policy neural network that leverages a pointing attention mechanism, which unlike previous works, can be easily extended to more general k-opt moves. Our results show that the learned policies can improve even over random initial solutions and approach near-optimal solutions at a faster rate than previous state-of-the-art deep learning methods.

연구 동기 및 목표

TSP의 개선 휴리스틱 학습에 대한 동기를 부여하고, 구성 휴리스틱이 아닌 2-opt 움직임에 초점을 맞춘다.
해 솔루션을 개선하기 위해 2-opt 움직임을 선택하는 확률적 정책을 학습하는 강화학습 프레임워크를 개발한다.
일반적인 k-opt 동작으로 확장될 수 있는 포인팅 어텐션 메커니즘을 갖춘 정책 신경망을 만든다.
학습된 정책이 열악한 해로부터 시작하여 기존 DL 방법보다 더 빠르게 거의 최적에 근접하도록 개선할 수 있음을 보인다.

제안 방법

상태가 (현재 순회, 최적 근사 순회)인 MDP로 2-opt 개선을 TSP에 대해 형식화한다.
advantage 기반 업데이트를 갖는 2-opt 움직임에 대한 확률적 정책을 학습하기 위해 정책 기울기(policy gradient)를 사용한다.
순회 및 간선을 표현하기 위해 Graph Convolutional Network(GCN)과 순차적 RNN 인코딩을 결합한 듀얼 인코더 아키텍처를 사용한다.
가능한 2-opt 움직임의 노드 인덱스를 출력하는 포인팅 어텐션 메커니즘으로 행동을 디코딩하여, 더 높은 k-opt 동작으로 확장할 수 있게 한다.
탐색을 장려하기 위한 엔트로피 보너스를 포함한 액터-크리틱 계열 목표로 학습한다.

실험 결과

연구 질문

RQ12-opt 개선을 위한 학습된 정책이 이전 DL 방법보다 더 효율적으로 거의 최적에 가까운 TSP 순회를 달성할 수 있는가?
RQ2듀얼 그래프 및 시퀀스 인코더와 포인팅 디코더가 Euclidean TSP에서 2-opt 움직임에 대해 얼마나 잘 수행하는가?
RQ3학습된 2-opt 정책이 작은 문제에서 큰 문제로, 무작위 초기 해로부터 일반화되는가?
RQ4더 긴 계획 시간(더 긴 에피소드 길이)이 정책 성능에 어떤 영향을 주는가?

주요 결과

학습된 정책은 무작위 초기 순회에서 시작해 TSP 크기(20, 50, 100 노드) 전반에서 거의 최적 해에 도달한다.
더 긴 에피소드의 정책은 더 긴 계획 시간을 고려함으로써 검증 성능을 향상시킨다.
TSP100의 512개 테스트 인스턴스에서 본 방법은 재시작이 있는 고전적 2-opt 휴리스틱 및 다수의 prior DL 방법보다 해의 질과 일관성 면에서 우수하다.
500, 1000, 2000 샘플링 스텝에서 TSP20에서 0.01%, 0.00%, 0.00%의 차이; TSP50에서 0.36%, 0.21%, 0.12%; TSP100에서 1.84%, 1.26%, 0.87%의 격차를 보고된 비교에서 달성한다.
이 접근법은 이전 RL 방법들보다 샘플 효율이 높고, 경쟁력 있는 실행 시간을 유지하면서 일반적인 k-opt 동작으로의 적응이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.