Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Perform Local Rewriting for Combinatorial Optimization

Xinyun Chen, Yuandong Tian|arXiv (Cornell University)|2018. 09. 30.
Constraint Satisfaction and Optimization참고 문헌 54인용 수 155
한 줄 요약

NeuRewriter는 현재 해의 로컬 부분을 반복적으로 재작성하는 정책을 학습하여 처음부터 해결하지 않고도 조합 최적화 문제의 성능을 향상합니다. 표현 간소화, 온라인 작업 스케줄링, 차량 경로 최적화에서 강력한 기준선보다 우수합니다.

ABSTRACT

Search-based methods for hard combinatorial optimization are often guided by heuristics. Tuning heuristics in various conditions and situations is often time-consuming. In this paper, we propose NeuRewriter that learns a policy to pick heuristics and rewrite the local components of the current solution to iteratively improve it until convergence. The policy factorizes into a region-picking and a rule-picking component, each parameterized by a neural network trained with actor-critic methods in reinforcement learning. NeuRewriter captures the general structure of combinatorial problems and shows strong performance in three versatile tasks: expression simplification, online job scheduling and vehicle routing problems. NeuRewriter outperforms the expression simplification component in Z3; outperforms DeepRM and Google OR-tools in online job scheduling; and outperforms recent neural baselines and Google OR-tools in vehicle routing problems.

연구 동기 및 목표

  • 수작업 휴리스틱 튜닝의 감소를 정책 기반 로컬 재작성 프레임워크를 학습함으로써 동기 부여한다.
  • 주어진 해를 영역-및 규칙 기반 재작성으로 반복적으로 개선하기 위한 NeuRewriter를 개발한다.
  • 다양한 도메인에 걸친 접근법의 전이 가능성과 강건성을 입증한다.

제안 방법

  • 두 부분으로 이루어진 정책: 해의 영역(region)을 선택하는 영역 선택과 재작성 행동을 고르는 규칙 선택.
  • Q-함수를 영역 채점기로 사용하는 배우-비평가 강화 학습을 통한 정책 학습.
  • 누적 향상을 촉진하기 위한 보상 r = c(s_t) - c(s_{t+1}).
  • 도메인 특화 상태 표현에 대해 영역 선택 Q와 규칙 선택 정책을 신경망으로 매개화한다.
  • 도메인은 표현 간소화(Halide 파스 트리), 온라인 작업 스케줄링(의존 그래프), 차량 경로 최적화(경로)를 포함한다.
  • 선택된 영역에 선택된 규칙을 적용하여 다음 상태를 얻고 수렴할 때까지 반복하는 통합 재작성 파이프라인.

실험 결과

연구 질문

  • RQ1학습된 로컬 재작성 정책이 다양한 조합 최적화 문제에서 수작업으로 조정된 휴리스틱과 전체 해를 예측하는 신경망보다 더 나은 성능을 보일 수 있는가?
  • RQ2영역 선택과 규칙 선택의 분해가 문제 도메인과 분포 전반에 일반화되는가?
  • RQ3전통적 솔버와 신경 기반 기준선에 비해 해의 품질과 런타임 측면에서 NeuRewriter의 성능은 어떤가?
  • RQ4영역 선택과 재작성 규칙의 기여도를 밝히는 애블레이션 연구는 무엇을 보여주는가?

주요 결과

  • NeuRewriter는 표현 간소화 도메인에서 평균 약 52%의 표현 길이와 59%의 파스 트리 크기를 감소시킨다.
  • 보고된 실험에서 Z3-simplify, Halide-rule, 휴리스틱 탐색보다 우수하며 Z3-ctx-solver-simplify보다 더 빠르다.
  • 온라인 작업 스케줄링에서 NeuRewriter는 Google OR-tools와 DeepRM을 능가하며, 이질적 자원이 있는 더 복잡한 설정에서 특히 그렇다.
  • 차량 경로 최적화에서 NeuRewriter는 최근의 신경 기반 기준선 및 OR-tools를 능가하며 20노드 VRP에서 오프라인 최적 해에 근접한다.
  • 애블레이션 연구는 이 접근법이 분포 변화에 강건하고 더 긴 표현 및 다양한 작업 부하 구성에도 일반화될 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.