[논문 리뷰] Learning to Perform Local Rewriting for Combinatorial Optimization
NeuRewriter는 현재 해의 로컬 부분을 반복적으로 재작성하는 정책을 학습하여 처음부터 해결하지 않고도 조합 최적화 문제의 성능을 향상합니다. 표현 간소화, 온라인 작업 스케줄링, 차량 경로 최적화에서 강력한 기준선보다 우수합니다.
Search-based methods for hard combinatorial optimization are often guided by heuristics. Tuning heuristics in various conditions and situations is often time-consuming. In this paper, we propose NeuRewriter that learns a policy to pick heuristics and rewrite the local components of the current solution to iteratively improve it until convergence. The policy factorizes into a region-picking and a rule-picking component, each parameterized by a neural network trained with actor-critic methods in reinforcement learning. NeuRewriter captures the general structure of combinatorial problems and shows strong performance in three versatile tasks: expression simplification, online job scheduling and vehicle routing problems. NeuRewriter outperforms the expression simplification component in Z3; outperforms DeepRM and Google OR-tools in online job scheduling; and outperforms recent neural baselines and Google OR-tools in vehicle routing problems.
연구 동기 및 목표
- 수작업 휴리스틱 튜닝의 감소를 정책 기반 로컬 재작성 프레임워크를 학습함으로써 동기 부여한다.
- 주어진 해를 영역-및 규칙 기반 재작성으로 반복적으로 개선하기 위한 NeuRewriter를 개발한다.
- 다양한 도메인에 걸친 접근법의 전이 가능성과 강건성을 입증한다.
제안 방법
- 두 부분으로 이루어진 정책: 해의 영역(region)을 선택하는 영역 선택과 재작성 행동을 고르는 규칙 선택.
- Q-함수를 영역 채점기로 사용하는 배우-비평가 강화 학습을 통한 정책 학습.
- 누적 향상을 촉진하기 위한 보상 r = c(s_t) - c(s_{t+1}).
- 도메인 특화 상태 표현에 대해 영역 선택 Q와 규칙 선택 정책을 신경망으로 매개화한다.
- 도메인은 표현 간소화(Halide 파스 트리), 온라인 작업 스케줄링(의존 그래프), 차량 경로 최적화(경로)를 포함한다.
- 선택된 영역에 선택된 규칙을 적용하여 다음 상태를 얻고 수렴할 때까지 반복하는 통합 재작성 파이프라인.
실험 결과
연구 질문
- RQ1학습된 로컬 재작성 정책이 다양한 조합 최적화 문제에서 수작업으로 조정된 휴리스틱과 전체 해를 예측하는 신경망보다 더 나은 성능을 보일 수 있는가?
- RQ2영역 선택과 규칙 선택의 분해가 문제 도메인과 분포 전반에 일반화되는가?
- RQ3전통적 솔버와 신경 기반 기준선에 비해 해의 품질과 런타임 측면에서 NeuRewriter의 성능은 어떤가?
- RQ4영역 선택과 재작성 규칙의 기여도를 밝히는 애블레이션 연구는 무엇을 보여주는가?
주요 결과
- NeuRewriter는 표현 간소화 도메인에서 평균 약 52%의 표현 길이와 59%의 파스 트리 크기를 감소시킨다.
- 보고된 실험에서 Z3-simplify, Halide-rule, 휴리스틱 탐색보다 우수하며 Z3-ctx-solver-simplify보다 더 빠르다.
- 온라인 작업 스케줄링에서 NeuRewriter는 Google OR-tools와 DeepRM을 능가하며, 이질적 자원이 있는 더 복잡한 설정에서 특히 그렇다.
- 차량 경로 최적화에서 NeuRewriter는 최근의 신경 기반 기준선 및 OR-tools를 능가하며 20노드 VRP에서 오프라인 최적 해에 근접한다.
- 애블레이션 연구는 이 접근법이 분포 변화에 강건하고 더 긴 표현 및 다양한 작업 부하 구성에도 일반화될 수 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.