QUICK REVIEW

[論文レビュー] Reinforcement Learning for Integer Programming: Learning to Cut

Yunhao Tang, Shipra Agrawal|arXiv (Cornell University)|Jun 11, 2019

Reinforcement Learning in Robotics参考文献 26被引用数 53

ひとこと要約

本論文は、ゴモリ法における切り取り平面の選択を深層強化学習問題として定式化し、RLが指向する切り取りを用いると整数計画の性能が向上することを示す。Branch-and-Cutを含む複数の問題クラスとサイズにわたって。

ABSTRACT

Integer programming (IP) is a general optimization framework widely applicable to a variety of unstructured and structured problems arising in, e.g., scheduling, production planning, and graph optimization. As IP models many provably hard to solve problems, modern IP solvers rely on many heuristics. These heuristics are usually human-designed, and naturally prone to suboptimality. The goal of this work is to show that the performance of those solvers can be greatly enhanced using reinforcement learning (RL). In particular, we investigate a specific methodology for solving IPs, known as the Cutting Plane Method. This method is employed as a subroutine by all modern IP solvers. We present a deep RL formulation, network architecture, and algorithms for intelligent adaptive selection of cutting planes (aka cuts). Across a wide range of IP tasks, we show that the trained RL agent significantly outperforms human-designed heuristics, and effectively generalizes to 10X larger instances and across IP problem classes. The trained agent is also demonstrated to benefit the popular downstream application of cutting plane methods in Branch-and-Cut algorithm, which is the backbone of state-of-the-art commercial IP solvers.

研究の動機と目的

強化学習が整数計画におけるゴモリ切り取りの選択を大幅に改善できることを示す。
ゴモリ切り取りを適応的に選択するための効率的なMDP定式化と深層RLポリシーを開発する。
IPサイズと問題クラスを横断する一般化を評価し、Branch-and-Cutソルバーへの影響を評価する。
RLで学習される切り取りの性質、パッキング問題の既知の不等式との関連性を含む洞察を提供する。

提案手法

状態をLP制約、現在のLP解、ゴモリ切り取りとしたマルコフ決定過程として切り取り平面の選択を定式化する。行動は候補となるゴモリ切り取り。
候補から切り取りを評価・選択するため、アテンションベースで順序非依存のアーキテクチャを用いた深層RLポリシーを使用する。
可変サイズの制約をLSTMで埋め込み、異なる問題サイズに対応し、アテンション機構を用いて行動確率を計算する。
複数のIPインスタンスでロールアウトからポリシー勾配を推定する進化戦略によって訓練する。
Integrality Gap Closure (IGC) を用いて評価し、Random、Max Violation、Max Normalized Violation、Lexicographicalベースラインと比較する。
Branch-and-Cut (B&C)設定でRL切り取りをサブルーチンとして評価し、ノード展開への影響を測定する。

実験結果

リサーチクエスチョン

RQ1RLガイド付きゴモリ切り取りは、さまざまなIPクラスで最適解に到達するために必要な切り取りの数を削減できるか？
RQ2従来のヒューリスティクスと比較して、RLは整合性ギャップをどれほど効果的に縮小するか？
RQ3RLポリシーはインスタンスサイズや問題クラスを横断して一般化するか、Branch-and-Cutの効率向上に寄与できるか？
RQ4学習された切り取りの性質は何で、ナップサック様問題において、リフトされたカバー不等式などの既知の有効な不等式に似ているか？

主な発見

RLは、パッキング、プランニング、二値パッキング、最大カット問題を横断して、最適解に到達するために必要な切り取りを基準と比べて大幅に少なくする。
RLは、切り取りだけでは最適解に到達できないような大規模インスタンスで整合性ギャップの縮小を大幅に改善する。
小さなインスタンスで訓練されたポリシーはより大きなインスタンスへ一般化し、さらにはIPクラス間で転移し得る、競争力のある性能を示す。
Branch-and-Cutフレームワークでは、RL切り取りが展開されるサブ問題の数を削減し、全体の効率を向上させる。
ナップサック問題では、RLはリフトされたカバー不等式に似た切り取りを学習し、解釈可能で意味のある切断戦略を示す。
RL有効な切断はBranch-and-Cutのサブルーチンとして使用された場合に大幅な改善をもたらし、ソルバーの性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。