QUICK REVIEW

[논문 리뷰] POMO: Policy Optimization with Multiple Optima for Reinforcement Learning

Yeong‐Dae Kwon, Jinho Choo|arXiv (Cornell University)|2020. 10. 30.

Reinforcement Learning in Robotics참고 문헌 29인용 수 135

한 줄 요약

POMO는 다중 시작점 탐색과 공유 기준선을 사용하여 조합 최적화 문제를 위한 강화 학습 해결사를 학습시켜 TSP, CVRP, KP에서 더 빠른 추론으로 최첨단 결과를 달성합니다.

ABSTRACT

In neural combinatorial optimization (CO), reinforcement learning (RL) can turn a deep neural net into a fast, powerful heuristic solver of NP-hard problems. This approach has a great potential in practical applications because it allows near-optimal solutions to be found without expert guides armed with substantial domain knowledge. We introduce Policy Optimization with Multiple Optima (POMO), an end-to-end approach for building such a heuristic solver. POMO is applicable to a wide range of CO problems. It is designed to exploit the symmetries in the representation of a CO solution. POMO uses a modified REINFORCE algorithm that forces diverse rollouts towards all optimal solutions. Empirically, the low-variance baseline of POMO makes RL training fast and stable, and it is more resistant to local minima compared to previous approaches. We also introduce a new augmentation-based inference method, which accompanies POMO nicely. We demonstrate the effectiveness of POMO by solving three popular NP-hard problems, namely, traveling salesman (TSP), capacitated vehicle routing (CVRP), and 0-1 knapsack (KP). For all three, our solver based on POMO shows a significant improvement in performance over all recent learned heuristics. In particular, we achieve the optimality gap of 0.14% with TSP100 while reducing inference time by more than an order of magnitude.

연구 동기 및 목표

강화 학습에서 조합 최적화(CO)에 대한 대칭성과 다중 최적해를 식별합니다.
탐색 및 안정성을 향상시키기 위해 다중 최적 표현을 활용하는 훈련 방법을 개발합니다.
다수의 탐욕적 롤아웃과 인스턴스 증강을 활용한 효율적인 추론 접근법을 제안합니다.
POMO를 세 가지 NP-난제 문제(TSP, CVRP, KP)에서 이전 신경망 RL 방법 대비 개선된 차이 및 속도와 함께 Demonstrate합니다.

제안 방법

각 인스턴스마다 N개의 서로 다른 시작 노드를 지정하여 각 인스턴스에 대해 다중 솔루션 롤아웃을 병렬로 생성하도록 POMO를 설계합니다.
N개의 궤적에 걸쳐 평균 보상으로 계산되는 공유 기준선 b_shared(s)를 사용하여 그래디언트 분산을 감소시키고 조기 수렴을 저항합니다.
정책 매개변수를 최적화하기 위해 다중 시작 궤적 체계와 공유 기준선을 갖춘 REINFORCE를 적용합니다.
다른 시작점에서 얻은 N개의 그리디 궤적을 평가하여 최적의 해를 선택하는 다중 그리디 궤적 추론 방법을 채택합니다.
추론 중 문제 변환(예: 좌표 회전/변환)을 적용하여 동일한 인스턴스에 대해 추가적인 그리디 롤아웃을 생성하는 인스턴스 증강을 도입합니다.
Attention Model 정책 네트워크와의 호환성을 입증하고 네트워크의 디코더 내에서 병렬 롤아웃 생성을 구현합니다.

실험 결과

연구 질문

RQ1대칭성과 다중 최적해를 활용하는 것이 CO 문제에 대한 RL의 탐색과 안정성을 향상시킬 수 있습니까?
RQ2다중 궤적에 걸친 공유 기준선이 그래디언트 분산을 감소시키고 greedy-rollout 기준선보다 지역적 최솟값을 더 잘 완화합니까?
RQ3다중 시작 그리디 추론과 인스턴스 증강이 TSP, CVRP, KP의 해의 질과 추론 시간에 어떤 영향을 미칩니까?

주요 결과

POMO는 다중 그리디 롤아웃과 증강을 사용하여 TSP100에서 0.14%의 매우 작은 최적해 차이로 거의 최적의 해에 근접한 해를 달성하고, 품질과 속도 측면에서 이전에 학습된 휴리스틱을 능가합니다.
다중 시작 노드와 공유 기준선을 사용한 학습은 보다 안정적이고 샘플 효율적인 정책 학습과 greddy-rollout 기준선에 비해 지역적 최소값에 덜 취약함을 보여줍니다.
추론에 있어 다중 시작 그리디 롤아웃(인스턴스 증강 포함)은 단일 궤적이나 순수 샘플링 접근법보다 종종 더 나은 해를 생성하며 추론 시간을 크게 단축시킬 수 있습니다.
POMO는 동일한 신경망 및 학습 절차를 사용하여 세 문제(TSP, CVRP, KP)에서 경쟁력 있거나 우수한 성능을 달성하여 문제에 의존하지 않는 적용 가능성을 강조합니다.
이 접근법은 현대 신경망 RL 방법에 비해 추론에서 크게 속도 향상을 보이면서 해의 품질을 유지하거나 향상시키는 것을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.