[論文レビュー] Learning to Perform Local Rewriting for Combinatorial Optimization
NeuRewriterは現在の解の局所部分を反復的に書き換える方針を学習し、0から解を作らずに組み合わせ最適化タスクを改善します。式の簡略化、オンラインジョブスケジューリング、車両ルーティングの分野で強力なベースラインを上回ります。
Search-based methods for hard combinatorial optimization are often guided by heuristics. Tuning heuristics in various conditions and situations is often time-consuming. In this paper, we propose NeuRewriter that learns a policy to pick heuristics and rewrite the local components of the current solution to iteratively improve it until convergence. The policy factorizes into a region-picking and a rule-picking component, each parameterized by a neural network trained with actor-critic methods in reinforcement learning. NeuRewriter captures the general structure of combinatorial problems and shows strong performance in three versatile tasks: expression simplification, online job scheduling and vehicle routing problems. NeuRewriter outperforms the expression simplification component in Z3; outperforms DeepRM and Google OR-tools in online job scheduling; and outperforms recent neural baselines and Google OR-tools in vehicle routing problems.
研究の動機と目的
- 手動ヒューリスティックのチューニングをPolicy駆動の局所的な書き換えフレームワークを学習することで合理化する動機づけ。
- NeuRewriterを開発して、領域ごとの規則ベースの書き換えと地域単位で与えられた解を反復的に改善する。
- このアプローチの複数ドメインにわたる移植性と頑健性を実証する。
提案手法
- 二段階の方針: 解の領域を選択する region-picking と、書き換えアクションを選ぶ rule-picking。
- 領域をスコアリングするQ値としてのQ-functionを用いた actor-critic 強化学習による方針訓練。
- 報酬 r = c(s_t) - c(s_{t+1}) により累積改善を促す。
- ニューラルネットワークは領域選択のQ値とルール選択のポリシーをドメイン特有の状態表現上でパラメータ化する。
- 対象ドメインには式の簡略化(Halideのパースツリー)、オンラインジョブスケジューリング(依存グラフ)、車両ルーティング(ルート)が含まれる。
- 統一された書き換えパイプラインは選択された規則を選択された領域に適用して次の状態を得て、収束するまで繰り返す。
実験結果
リサーチクエスチョン
- RQ1学習済みの局所的な書き換えポリシーは、多様な組み合わせ最適化問題で手動調整のヒューリスティクスや完全解を求めるニューラル予測器を上回ることができるか?
- RQ2領域選択と規則選択の分解は問題ドメインと分布を越えて一般化しますか?
- RQ3従来のソルバーおよびニューラルベースラインと比較した際の解の品質と実行時間はどうか?
- RQ4領域選択と書き換え規則の貢献を明らかにするアブレーションは何か?
主な発見
- NeuRewriterは式の簡略化ドメインにおいて、表現長とパースツリーサイズを平均で約52%および59%削減する。
- 報告された実験でZ3-simplify、Halide-rule、ヒューリスティック探索を上回り、Z3-ctx-solver-simplifyよりも高速である。
- オンラインジョブスケジューリングでは、NeuRewriterはGoogle OR-toolsとDeepRMを上回り、特に異種リソースを持つより複雑な設定で優位である。
- 車両ルーティングでは、NeuRewriterは最近のニューラルベースラインとOR-toolsを上回り、20ノードのVRPでオフライン最適解に近づく。
- アブレーションから、この手法は分布シフトに対して頑健で、より長い式や異なるワークロード構成にも一般化できることが示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。