QUICK REVIEW

[논문 리뷰] Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing

Arthur Delarue, Ross Anderson|arXiv (Cornell University)|2020. 10. 22.

Reinforcement Learning in Robotics참고 문헌 37인용 수 46

한 줄 요약

이 논문은 정책-수행 방식으로 강화학습의 프레임워크를 제시하며, 값 함수 기반의 강화학습에서 조합적 행동을 혼합 정수 프로그래밍(MIP)으로 액션 선택을 형식화하고, 정책-반복 방식과 신경망 값 함수 근사기를 CVRP에 적용합니다. 기본선 대비 경쟁력 있는 결과를 달성하고 표준 CVRP 인스턴스에서 OR-Tools와의 일치에 근접합니다.

ABSTRACT

Value-function-based methods have long played an important role in reinforcement learning. However, finding the best next action given a value function of arbitrary complexity is nontrivial when the action space is too large for enumeration. We develop a framework for value-function-based deep reinforcement learning with a combinatorial action space, in which the action selection problem is explicitly formulated as a mixed-integer optimization problem. As a motivating example, we present an application of this framework to the capacitated vehicle routing problem (CVRP), a combinatorial optimization problem in which a set of locations must be covered by a single vehicle with limited capacity. On each instance, we model an action as the construction of a single route, and consider a deterministic policy which is improved through a simple policy iteration algorithm. Our approach is competitive with other reinforcement learning methods and achieves an average gap of 1.7% with state-of-the-art OR methods on standard library instances of medium size.

연구 동기 및 목표

강화학습을 통한 조합 최적화의 동기 부여 및 최적화가 큰 액션 공간에 미치는 문제를 해결하기 위해 액션 선택에 최적화를 내재화합니다.
신경망이 가치 함수를 추정하고 혼합 정수 프로그래밍이 다음 액션을 선택하는 정책-반복 RL 프레임워크를 제안합니다.
행동 선택의 PC-TSP를 가방(knapsack) 제약조건으로 축소하여 CVRP에 접근합니다.
무작위 및 라이브러리 CVRP 인스턴스에서 기본선 및 OR-Tools와의 경쟁력을 입증하고, 단일 인스턴스 학습의 이점을 강조합니다.

제안 방법

CVRP 상태를 방문하지 않은 도시의 이진 벡터로 표현하고 액션을 창고(디포)에서 시작/종료하는 feasible 경로로 설정합니다.
현재 정책에 대한 가치 함수 V^π를 근사하기 위해 ReLU 활성화가 있는 작은 신경망을 사용합니다.
정책 개선 단계에서 C(a) + V̂(T(s,a))를 최소화하여 다음 액션을 선택합니다; 이 액션 선택 단계를 가방 제약(knapsack 제약)을 포함하는 PC-TSP를 인코딩한 혼합 정수 프로그래밍(MIP)으로 해결합니다.
MIP에서 V̂(t)를 부분별 선형 항으로 포함시켜 ReLU 활성화를 통해 표준 MIP 솔버가 조합적 액션을 최적화하도록 합니다.
MIP를 더 촘촘하게 하기 위해 관여 가능한 하한 LB^p(t)로 목적함수를 보강하여 수렴을 개선합니다.
정책 평가에서의 데이터로 가치 네트워크를 학습하며, 반복 간 데이터 보존과 과거 데이터의 영향 감소를 적용합니다.

실험 결과

연구 질문

RQ1RL에서의 조합적 액션 공간이 액션 선택 단계 내에서 최적화를 내재화하는(MIP) 방식으로 효과적으로 다를 수 있는가?
RQ2작은 신경망 가치 함수와 최적화 기반 액션 선택기가 CVRP에서 RL 기본 방법과 OR-Tools 대비 어떤 성능을 보이는가?
RQ3데이터 보존, 네트워크 크기 및 정규화가 CVRP의 정책 반복 성능에 어떤 영향을 미치는가?
RQ4단일 인스턴스 RL 접근법이 표준 벤치마크 인스턴스에서 분포 기반 RL 방법과 경쟁 가능한가?

주요 결과

표준 CVRP 라이브러리 인스턴스에서 OR-Tools에 대한 평균 격차는 중간 크기 문제에서 1.7%이다.
16 뉴런으로 구성된 RLCA 방법은 간단한 신경망 아키텍처로도 이전의 RL 방법에 비해 경쟁력 있는 성능을 달성한다.
11, 21, 51도시 무작위 CVRP 인스턴스에서 RLCA는 탐욕적 방법을 능가하고 OR-Tools의 성능과 근접하거나 일부 설정에서 최적 CP-SAT 해법에 근접한 실적을 보인다.
액션 선택 MIP를 해결하는 것이 학습 시간의 병목으로 나타나며, 일반적으로 Gurobi가 SCIP보다 빠르며 더 빠른 정책 반복을 가능하게 한다.
조합적 하한을 도입하면 수렴 및 해의 질이 약간 향상되고, 더 큰 네트워크가 수익 체감까지 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.