QUICK REVIEW

[논문 리뷰] Neural Combinatorial Optimization with Reinforcement Learning

Irwan Bello, Hieu Pham|arXiv (Cornell University)|2016. 11. 29.

Metaheuristic Optimization Algorithms Research인용 수 278

한 줄 요약

본 논문은 Neural Combinatorial Optimization을 제시하며, 강화학습(정책 그래디언트)으로 학습된 포인터 네트워크 기반 정책을 사용해 2D 유클리드 그래프의 TSP와 knapsack 문제를 해결하고, 사전학습과 활성 탐색 전략으로 거의 최적에 가까운 결과를 달성한다. RL 기반 방법이 지도학습 접근법보다 우수함을 보여주고, 해답 품질을 개선하기 위한 추론 시점 탐색 Variants를 도입한다.

ABSTRACT

This paper presents a framework to tackle combinatorial optimization problems using neural networks and reinforcement learning. We focus on the traveling salesman problem (TSP) and train a recurrent network that, given a set of city coordinates, predicts a distribution over different city permutations. Using negative tour length as the reward signal, we optimize the parameters of the recurrent network using a policy gradient method. We compare learning the network parameters on a set of training graphs against learning them on individual test graphs. Despite the computational expense, without much engineering and heuristic designing, Neural Combinatorial Optimization achieves close to optimal results on 2D Euclidean graphs with up to 100 nodes. Applied to the KnapSack, another NP-hard problem, the same method obtains optimal solutions for instances with up to 200 items.

연구 동기 및 목표

문제 크기에 관계없이 일반화될 수 있는 학습 기반의 조합 최적화 접근법을 제시한다.
정답 레이블이 없는 상태에서도 유효한 순열을 출력할 수 있는 신경망 아키텍처를 개발한다.
2D 유클리드 TSP와 knapsack에서의 효과를 시연하고, 이를 고전 솔버와 비교한다.
해결 품질을 향상시키기 위한 학습 전략(RL 사전학습 및 활성 탐검색)을 탐구한다.

제안 방법

인코더-디코더 LSTM과 주의(attention) 기반 포인팅 메커니즘을 갖춘 포인터 네트워크를 사용해 p(pi|s)를 모델링한다.
비매개변수적 소프트맥스 모듈(포인터 네트워크)을 사용하여 p(pi|s)=Product p(pi(i)|pi(<i),s)로 투어 확률을 분해한다.
분산 감소를 위한 베이스라인을 사용해 기대 투어 길이를 최소화하도록 정책 그래디언트(REINFORCE)로 학습한다.
주어진 입력에 대한 예상 투어 길이를 추정하고 학습을 안내하기 위해 비평가(크리틱) 네트워크를 도입한다(액터-크리틱).
확률 정책에서 샘플링하는 탐색과 단일 테스트 인스턴스에서 정책 매개변수를 업데이트하는 활성 탐색 절차의 두 가지 추론 시점 탐색 전략을 적용한다.
다른 문제에 대한 일반화 가능성을 논의하고 사례 연구로 knapsack를 예시로 보여준다.

실험 결과

연구 질문

RQ1포인터 아키텍처를 갖는 신경망이 지도적 최적 해 레이블 없이 조합 최적화에 대한 좋은 휴리스트를 학습할 수 있는가?
RQ2사전학습과 활성 탐색을 포함한 강화학습이 TSP와 knapsack에서 지도학습 기반값을 능가하는가?
RQ3최적 해에 도달하기 위한 효과적인 추론 시점 전략은 무엇인가?
RQ4훈련 인스턴스 크기를 넘어 다양한 문제 크기에 얼마나 잘 일반화되는가?
RQ5보상 및 실행 가능성 처리 방식을 바꿔 프레임워크를 다른 조합 문제에 적응시킬 수 있는가?

주요 결과

RL 기반 학습은 TSP에서 이전 연구 대비 지도 학습에 비해 상당히 향상된다.
충분한 계산 자원이 주어지면 2D 유클리드 TSP 그래프에서 100 노드까지 근사 최적에 가까운 결과를 달성한다.
Knapsack에 적용했을 때 최대 200개의 아이템인 인스턴스에서 최적해를 도출한다.
활성 탐색과 RL 사전학습-샘플링이 가장 경쟁력 있는 추론 전략이며, 속도와 해의 품질 사이의 트레이드오프가 있다.
그리디 디코딩은 빠르지만 열등하고, 샘플링과 활성 탐색은 추가 계산으로 거의 최적에 가까운 투어를 얻을 수 있다.
추론 시점 탐색은 품질 저하를 미미하게 하면서 조기에 중단할 수 있어 더 빠른 실행 시간을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.