QUICK REVIEW

[논문 리뷰] Unsupervised Learning for Solving the Travelling Salesman Problem

Yimeng Min, Yiwei Bai|arXiv (Cornell University)|2023. 03. 19.

Metaheuristic Optimization Algorithms Research인용 수 8

한 줄 요약

UTSP는 감독 신호 없이 대리 손실로 그래프 신경망(GNN)을 학습시켜 간선 확률의 히트 맵을 생성한 다음 히트 맵으로 안내되는 로컬 탐색을 사용하여 높은 효율성과 정확도로 TSP를 해결하고, 기존의 데이터 기반 방법보다 성능이 우수합니다.

ABSTRACT

We propose UTSP, an unsupervised learning (UL) framework for solving the Travelling Salesman Problem (TSP). We train a Graph Neural Network (GNN) using a surrogate loss. The GNN outputs a heat map representing the probability for each edge to be part of the optimal path. We then apply local search to generate our final prediction based on the heat map. Our loss function consists of two parts: one pushes the model to find the shortest path and the other serves as a surrogate for the constraint that the route should form a Hamiltonian Cycle. Experimental results show that UTSP outperforms the existing data-driven TSP heuristics. Our approach is parameter efficient as well as data efficient: the model takes $\sim$ 10\% of the number of parameters and $\sim$ 0.2\% of training samples compared with reinforcement learning or supervised learning methods.

연구 동기 및 목표

데이터 효율적인 비지도 학습 접근법으로 유클리드 TSP를 해결하는 동기를 제시한다.
해결 구성에 가이드를 주는 간선 히트 맵을 생성하는 GNN 기반 프레임워크를 개발한다.
해밀토니언 사이클 제약을 강제하면서 순회 길이를 최소화하는 미분 가능한 대리 손실을 도입한다.
히트 맵 생성을 최적 우선 로컬 탐색과 결합해 최종 순회를 생성한다.
대형 TSP 인스턴스에서 RL/SL 기반 기준보다 우수한 성능과 효율성을 입증한다.

제안 방법

도시 좌표로부터 거리 행렬 D를 구성하고 W_{i,j}=exp(-D_{i,j}/tau)인 인접 가중치 행렬 W를 구축한다.
GNN 출력 S에 열 단위 Softmax를 적용해 전이 행렬 T를 생성하기 위해 Scattering Attention GNN(SAG)을 사용한다.
히트 맵 H = T V T^T를 구축하는데, 여기서 V는 Sylvester 시프트 행렬을 사용하여 해밀토니언 사이클에서 간선 참여 확률을 인코딩한다.
L이라는 비감독 손실로 학습합니다: (i) T에 대한 행 방향 제약, (ii) H에 자기 루프가 없도록, (iii) D와 H를 사용해 예상 순회 길이를 최소화.
두 단계 파이프라인을 적용한다: (a) T로부터 히트 맵 구성, (b) H를 안내하는 최적 우선 로컬 탐색으로 최종 TSP 순회를 얻는다.
탐색 중에 더 나은 해로 이어지는 간선을 강화하는 역전파 유사 규칙을 사용하여 히트 맵을 업데이트하고, 탐색 다양화를 위해 무작위성을 주입한다.

실험 결과

연구 질문

RQ1감독 신호 없이도 비감독 대리 손실이 GNN으로 정보를 담은 간선 히트 맵을 생성하여 라벨이 있는 최적 순회 없이 TSP 해결사를 안내할 수 있는가?
RQ2SAG(밴드-패스 필터 포함)를 사용하는 것이 표준 GCN보다 더 표현력이 있는 히트 맵을 만들어 탐색 공간 축소와 해법 품질을 향상시키는가?
RQ3UTSP는 대규모 TSP 인스턴스에서 추론 시 히트 맵 구성과 로컬 탐색 탐색을 어떻게 균형 있게 조절하여 경쟁력 있으거나 우수한 결과를 달성하는가?
RQ4학습된 히트 맵이 전통적인 데이터 기반 기준에 비해 탐색 공간을 얼마나 줄이고 해법의 질을 향상시키는가?

주요 결과

대형 TSP 인스턴스(n=200, 500, 1000)에서 UTSP는 각각 0.0918%, 0.8394%, 1.1770%의 격차를 달성하고, 기준보다 총 런타임이 더 빠르다.
UTSP는 RL/SL 접근법에 비해 학습 샘플(약 2,000)과 파라미터 수(예: 44,392)가 훨씬 적고 수렴 속도가 더 빠르다.
Scattering Attention GNN(SAG)은 GCN보다 더 구별력 있고 부드럽지 않은 히트 맵 H를 생성하여 간선 우선순위 부여와 로컬 탐색 성능을 개선한다.
UTSP가 안내하는 예측 간선 집합 Pi는 약한 학습 후 약 10 에폭에서 연구진이ground-truth 간선의 약 98%를 차지하며 SAG의 경우 100 에폭 후 약 99.76%를 차지하고, GCN의 경우 약 33.9%를 차지한다.
히트 맵 기반 대리 손실은 탐색 공간을 평균적으로 4,950개에서 약 583개로 감소시켜 탐색을 더 빠르고 정확하게 돕는다.
정확한 해법 솔버 및 다른 학습 기준과 비교할 때, UTSP는 훨씬 적은 학습 데이터와 시간으로 경쟁력 있거나 우수한 해 품질을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.