Skip to main content
QUICK REVIEW

[논문 리뷰] Automatic Local Rewriting for Combinatorial Optimization

Xinyun Chen, Yuandong Tian|arXiv (Cornell University)|2018. 09. 30.
Reinforcement Learning in Robotics참고 문헌 28인용 수 1
한 줄 요약

NeuRewriter는 복잡한 최적화 문제의 국소적 구성 요소를 강화 학습 기반으로 자동으로 재작성하기 위해 신경 정책를 통해 영역과 재작성 규칙을 학습적으로 선택하는 방법을 제안한다. 문제에 종속되지 않는 구조에서 액터-크리틱 훈련을 활용함으로써 표현 간소화, 온라인 작업 스케줄링, 차량 경로 최적화에서 최신 기법들을 능가한다.

ABSTRACT

Search-based methods for hard combinatorial optimization are often guided by heuristics. Tuning heuristics in various conditions and situations is often time-consuming. In this paper, we propose NeuRewriter that learns a policy to pick heuristics and rewrite the local components of the current solution to iteratively improve it until convergence. The policy factorizes into a region-picking and a rule-picking component, each parameterized by a neural network trained with actor-critic methods in reinforcement learning. NeuRewriter captures the general structure of combinatorial problems and shows strong performance in three versatile tasks: expression simplification, online job scheduling and vehicle routing problems. NeuRewriter outperforms the expression simplification component in Z3; outperforms DeepRM and Google OR-tools in online job scheduling; and outperforms recent neural baselines and Google OR-tools in vehicle routing problems.

연구 동기 및 목표

  • 기반 탐색 최적화에서 히ュ리스틱을 수동으로 튜닝하는 데 소요되는 시간과 노력을 줄이기 위해.
  • 국소적 구성 요소를 재작성함으로써 솔루션을 적응적으로 향상시킬 수 있는 일반 목적의 방법을 개발하기 위해.
  • 어느 부분을 수정할지와 어떤 규칙을 적용할지 선택하는 정책을 학습하기 위해.
  • 작업에 특화된 히ュ리스틱 설계 없이 다양한 복잡한 최적화 문제에서 뛰어난 성능을 달성하기 위해.
  • 표현 간소화, 작업 스케줄링, 차량 경로 최적화에서 기존의 히ュ리스틱 기반 및 신경 기반 기준선을 능가하기 위해.

제안 방법

  • NeuRewriter는 솔루션의 재작성 대상 영역을 선택하는 데 사용되는 정책과 재작성 규칙를 선택하는 데 사용되는 정책으로 구성된 이중 신경 정책을 사용한다.
  • 장기적인 솔루션 향상에 기여하도록 액터-크리틱 강화 학습을 사용하여 정책을 훈련한다.
  • 재작성 결정을 영역 선택과 규칙 선택으로 분해하며, 각각 별도의 신경망으로 모델링한다.
  • 반복적으로 국소적 솔루션 구성 요소를 수정함으로써 전체 솔루션 품질을 향상시킨다.
  • 이 방법은 복잡한 최적화 문제의 일반적인 구조적 패턴을 포착하여 다양한 작업 간의 전이 가능성을 제공한다.
  • 보상은 각 재작성 단계 이후의 솔루션 품질 향상에 따라 형상화되며, 엔드 투 엔드로 훈련된다.

실험 결과

연구 질문

  • RQ1학습된 정책이 복잡한 최적화 문제에서 어느 부분을 재작성할지 효과적으로 선택할 수 있는가?
  • RQ2신경 정책이 영역 선택과 규칙 적용을 함께 학습하여 솔루션 품질을 향상시킬 수 있는가?
  • RQ3특정 작업에 맞춰 튜닝하지 않고도 다양한 복잡한 최적화 문제에 일반화될 수 있는가?
  • RQ4학습된 재작성 정책의 성능는 수작업 히ュ리스틱과 기존의 신경 기반 기준선과 비교해 어떻게 되는가?
  • RQ5Z3, Google OR-tools, DeepRM과 같은 최신 도구들을 능가할 수 있는가?

주요 결과

  • NeuRewriter는 표현 간소화 작업에서 Z3의 표현 간소화 모듈을 능가한다.
  • 온라인 작업 스케줄링 시나리오에서 DeepRM과 Google OR-tools보다 뛰어난 성능을 달성한다.
  • 차량 경로 최적화 문제에서 최근의 신경 기반 기준선과 Google OR-tools를 모두 능가한다.
  • 세 가지 서로 다른 복잡한 최적화 작업 간에 강력한 일반화 성능을 보였다.
  • 액터-크리틱 훈련 체계는 반복적인 국소적 재작성으로 솔루션 품질을 향상시키는 정책을 효과적으로 학습했다.
  • 분해된 정책 구조는 복잡한 솔루션 공간에서 효과적인 탐색과 이용을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.