QUICK REVIEW

[論文レビュー] Automatic Local Rewriting for Combinatorial Optimization

Xinyun Chen, Yuandong Tian|arXiv (Cornell University)|Sep 30, 2018

Reinforcement Learning in Robotics参考文献 28被引用数 1

ひとこと要約

NeuRewriter は、強化学習に基づく手法であり、組合せ最適化問題の局所的コンポーネントを、ニューラル方策を用いて領域と再書式化ルールの選択を学習することで自動的に再書式化する。問題に依存しない構造をアクター・クリティック学習で活用することで、式の単純化、オンラインジョブスケジューリング、車両ルーティングの3つのタスクで最先端の手法を上回る性能を発揮する。

ABSTRACT

Search-based methods for hard combinatorial optimization are often guided by heuristics. Tuning heuristics in various conditions and situations is often time-consuming. In this paper, we propose NeuRewriter that learns a policy to pick heuristics and rewrite the local components of the current solution to iteratively improve it until convergence. The policy factorizes into a region-picking and a rule-picking component, each parameterized by a neural network trained with actor-critic methods in reinforcement learning. NeuRewriter captures the general structure of combinatorial problems and shows strong performance in three versatile tasks: expression simplification, online job scheduling and vehicle routing problems. NeuRewriter outperforms the expression simplification component in Z3; outperforms DeepRM and Google OR-tools in online job scheduling; and outperforms recent neural baselines and Google OR-tools in vehicle routing problems.

研究の動機と目的

探索ベースの組合せ最適化におけるヒューリスティクスの手動チューニングに要する時間と作業を削減すること。
局所的コンポーネントの再書式化によって解を適応的に改善できる汎用的手法を開発すること。
どの解の部分を変更するか、およびどのルールを適用するかを同時に学習する方策を学ぶこと。
タスク固有のヒューリスティクス設計を一切行わずに、多様な組合せ最適化問題で優れた性能を達成すること。
式の単純化、ジョブスケジューリング、車両ルーティングの分野で、既存のヒューリスティクスベースおよびニューラルベースラインを上回ること。

提案手法

NeuRewriter は、再書式化対象の領域を選択する方策と、再書式化ルールを選択する方策の2つの部分からなるニューラル方策を用いる。
方策は、長期的な解の改善を最大化するように、アクター・クリティック強化学習で訓練される。
再書式化意思決定を、領域選択とルール選択の2つのコンponentに分解し、それぞれ別個のニューラルネットワークでモデル化する。
反復的に局所的解のコンポーネントを変更することで、全体の解の品質を向上させる。
このアプローチは、組合せ最適化問題に共通する一般化された構造的パターンを捉え、タスク間での転送性を実現する。
訓練はエンドツーエンドで行われ、各再書式化ステップ後の解の品質向上に基づいて報酬が形状化される。

実験結果

リサーチクエスチョン

RQ1学習された方策は、組合せ最適化における解のどの部分を再書式化するかを効果的に選択できるか？
RQ2ニューラル方策は、解の品質向上を目的に、領域選択とルール適用を同時に学習できるか？
RQ3タスク固有のチューニングなしに、多様な組合せ最適化問題に一般化できるか？
RQ4学習された再書式化方策の性能は、手動で設計されたヒューリスティクスおよび既存のニューラルベースラインと比べてどうか？
RQ5Z3 や Google OR-tools、DeepRM といった最先端のツールを上回る結果を達成できるか？

主な発見

NeuRewriter は、式の単純化タスクにおいて Z3 の式単純化モジュールを上回る性能を発揮する。
オンラインジョブスケジューリングのシナリオでは、DeepRM や Google OR-tools を上回る性能を達成する。
車両ルーティング問題において、最近のニューラルベースラインおよび Google OR-tools を上回る。
3つの異なる組合せ最適化タスクにわたり、強力な一般化性能を示す。
アクター・クリティック学習スキームにより、反復的な局所的再書式化を通じて解の品質を向上させる方策を効果的に学習できる。
因子化された方策構造により、複雑な解空間における効果的な探索と活用が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。