QUICK REVIEW

[논문 리뷰] Automatic Local Rewriting for Combinatorial Optimization

Xinyun Chen, Yuandong Tian|arXiv (Cornell University)|2018. 09. 30.

Reinforcement Learning in Robotics참고 문헌 28인용 수 1

한 줄 요약

NeuRewriter는 복잡한 최적화 문제의 국소적 구성 요소를 강화 학습 기반으로 자동으로 재작성하기 위해 신경 정책를 통해 영역과 재작성 규칙을 학습적으로 선택하는 방법을 제안한다. 문제에 종속되지 않는 구조에서 액터-크리틱 훈련을 활용함으로써 표현 간소화, 온라인 작업 스케줄링, 차량 경로 최적화에서 최신 기법들을 능가한다.

ABSTRACT

Search-based methods for hard combinatorial optimization are often guided by heuristics. Tuning heuristics in various conditions and situations is often time-consuming. In this paper, we propose NeuRewriter that learns a policy to pick heuristics and rewrite the local components of the current solution to iteratively improve it until convergence. The policy factorizes into a region-picking and a rule-picking component, each parameterized by a neural network trained with actor-critic methods in reinforcement learning. NeuRewriter captures the general structure of combinatorial problems and shows strong performance in three versatile tasks: expression simplification, online job scheduling and vehicle routing problems. NeuRewriter outperforms the expression simplification component in Z3; outperforms DeepRM and Google OR-tools in online job scheduling; and outperforms recent neural baselines and Google OR-tools in vehicle routing problems.

연구 동기 및 목표

기반 탐색 최적화에서 히ュ리스틱을 수동으로 튜닝하는 데 소요되는 시간과 노력을 줄이기 위해.
국소적 구성 요소를 재작성함으로써 솔루션을 적응적으로 향상시킬 수 있는 일반 목적의 방법을 개발하기 위해.
어느 부분을 수정할지와 어떤 규칙을 적용할지 선택하는 정책을 학습하기 위해.
작업에 특화된 히ュ리스틱 설계 없이 다양한 복잡한 최적화 문제에서 뛰어난 성능을 달성하기 위해.
표현 간소화, 작업 스케줄링, 차량 경로 최적화에서 기존의 히ュ리스틱 기반 및 신경 기반 기준선을 능가하기 위해.

제안 방법

NeuRewriter는 솔루션의 재작성 대상 영역을 선택하는 데 사용되는 정책과 재작성 규칙를 선택하는 데 사용되는 정책으로 구성된 이중 신경 정책을 사용한다.
장기적인 솔루션 향상에 기여하도록 액터-크리틱 강화 학습을 사용하여 정책을 훈련한다.
재작성 결정을 영역 선택과 규칙 선택으로 분해하며, 각각 별도의 신경망으로 모델링한다.
반복적으로 국소적 솔루션 구성 요소를 수정함으로써 전체 솔루션 품질을 향상시킨다.
이 방법은 복잡한 최적화 문제의 일반적인 구조적 패턴을 포착하여 다양한 작업 간의 전이 가능성을 제공한다.
보상은 각 재작성 단계 이후의 솔루션 품질 향상에 따라 형상화되며, 엔드 투 엔드로 훈련된다.

실험 결과

연구 질문

RQ1학습된 정책이 복잡한 최적화 문제에서 어느 부분을 재작성할지 효과적으로 선택할 수 있는가?
RQ2신경 정책이 영역 선택과 규칙 적용을 함께 학습하여 솔루션 품질을 향상시킬 수 있는가?
RQ3특정 작업에 맞춰 튜닝하지 않고도 다양한 복잡한 최적화 문제에 일반화될 수 있는가?
RQ4학습된 재작성 정책의 성능는 수작업 히ュ리스틱과 기존의 신경 기반 기준선과 비교해 어떻게 되는가?
RQ5Z3, Google OR-tools, DeepRM과 같은 최신 도구들을 능가할 수 있는가?

주요 결과

NeuRewriter는 표현 간소화 작업에서 Z3의 표현 간소화 모듈을 능가한다.
온라인 작업 스케줄링 시나리오에서 DeepRM과 Google OR-tools보다 뛰어난 성능을 달성한다.
차량 경로 최적화 문제에서 최근의 신경 기반 기준선과 Google OR-tools를 모두 능가한다.
세 가지 서로 다른 복잡한 최적화 작업 간에 강력한 일반화 성능을 보였다.
액터-크리틱 훈련 체계는 반복적인 국소적 재작성으로 솔루션 품질을 향상시키는 정책을 효과적으로 학습했다.
분해된 정책 구조는 복잡한 솔루션 공간에서 효과적인 탐색과 이용을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.