Skip to main content
QUICK REVIEW

[논문 리뷰] POMO: Policy Optimization with Multiple Optima for Reinforcement Learning

Yeong‐Dae Kwon, Jinho Choo|arXiv (Cornell University)|2020. 10. 30.
Reinforcement Learning in Robotics참고 문헌 29인용 수 135
한 줄 요약

POMO는 다중 시작점 탐색과 공유 기준선을 사용하여 조합 최적화 문제를 위한 강화 학습 해결사를 학습시켜 TSP, CVRP, KP에서 더 빠른 추론으로 최첨단 결과를 달성합니다.

ABSTRACT

In neural combinatorial optimization (CO), reinforcement learning (RL) can turn a deep neural net into a fast, powerful heuristic solver of NP-hard problems. This approach has a great potential in practical applications because it allows near-optimal solutions to be found without expert guides armed with substantial domain knowledge. We introduce Policy Optimization with Multiple Optima (POMO), an end-to-end approach for building such a heuristic solver. POMO is applicable to a wide range of CO problems. It is designed to exploit the symmetries in the representation of a CO solution. POMO uses a modified REINFORCE algorithm that forces diverse rollouts towards all optimal solutions. Empirically, the low-variance baseline of POMO makes RL training fast and stable, and it is more resistant to local minima compared to previous approaches. We also introduce a new augmentation-based inference method, which accompanies POMO nicely. We demonstrate the effectiveness of POMO by solving three popular NP-hard problems, namely, traveling salesman (TSP), capacitated vehicle routing (CVRP), and 0-1 knapsack (KP). For all three, our solver based on POMO shows a significant improvement in performance over all recent learned heuristics. In particular, we achieve the optimality gap of 0.14% with TSP100 while reducing inference time by more than an order of magnitude.

연구 동기 및 목표

  • 강화 학습에서 조합 최적화(CO)에 대한 대칭성과 다중 최적해를 식별합니다.
  • 탐색 및 안정성을 향상시키기 위해 다중 최적 표현을 활용하는 훈련 방법을 개발합니다.
  • 다수의 탐욕적 롤아웃과 인스턴스 증강을 활용한 효율적인 추론 접근법을 제안합니다.
  • POMO를 세 가지 NP-난제 문제(TSP, CVRP, KP)에서 이전 신경망 RL 방법 대비 개선된 차이 및 속도와 함께 Demonstrate합니다.

제안 방법

  • 각 인스턴스마다 N개의 서로 다른 시작 노드를 지정하여 각 인스턴스에 대해 다중 솔루션 롤아웃을 병렬로 생성하도록 POMO를 설계합니다.
  • N개의 궤적에 걸쳐 평균 보상으로 계산되는 공유 기준선 b_shared(s)를 사용하여 그래디언트 분산을 감소시키고 조기 수렴을 저항합니다.
  • 정책 매개변수를 최적화하기 위해 다중 시작 궤적 체계와 공유 기준선을 갖춘 REINFORCE를 적용합니다.
  • 다른 시작점에서 얻은 N개의 그리디 궤적을 평가하여 최적의 해를 선택하는 다중 그리디 궤적 추론 방법을 채택합니다.
  • 추론 중 문제 변환(예: 좌표 회전/변환)을 적용하여 동일한 인스턴스에 대해 추가적인 그리디 롤아웃을 생성하는 인스턴스 증강을 도입합니다.
  • Attention Model 정책 네트워크와의 호환성을 입증하고 네트워크의 디코더 내에서 병렬 롤아웃 생성을 구현합니다.

실험 결과

연구 질문

  • RQ1대칭성과 다중 최적해를 활용하는 것이 CO 문제에 대한 RL의 탐색과 안정성을 향상시킬 수 있습니까?
  • RQ2다중 궤적에 걸친 공유 기준선이 그래디언트 분산을 감소시키고 greedy-rollout 기준선보다 지역적 최솟값을 더 잘 완화합니까?
  • RQ3다중 시작 그리디 추론과 인스턴스 증강이 TSP, CVRP, KP의 해의 질과 추론 시간에 어떤 영향을 미칩니까?

주요 결과

  • POMO는 다중 그리디 롤아웃과 증강을 사용하여 TSP100에서 0.14%의 매우 작은 최적해 차이로 거의 최적의 해에 근접한 해를 달성하고, 품질과 속도 측면에서 이전에 학습된 휴리스틱을 능가합니다.
  • 다중 시작 노드와 공유 기준선을 사용한 학습은 보다 안정적이고 샘플 효율적인 정책 학습과 greddy-rollout 기준선에 비해 지역적 최소값에 덜 취약함을 보여줍니다.
  • 추론에 있어 다중 시작 그리디 롤아웃(인스턴스 증강 포함)은 단일 궤적이나 순수 샘플링 접근법보다 종종 더 나은 해를 생성하며 추론 시간을 크게 단축시킬 수 있습니다.
  • POMO는 동일한 신경망 및 학습 절차를 사용하여 세 문제(TSP, CVRP, KP)에서 경쟁력 있거나 우수한 성능을 달성하여 문제에 의존하지 않는 적용 가능성을 강조합니다.
  • 이 접근법은 현대 신경망 RL 방법에 비해 추론에서 크게 속도 향상을 보이면서 해의 품질을 유지하거나 향상시키는 것을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.