Skip to main content
QUICK REVIEW

[論文レビュー] BQ-NCO: Bisimulation Quotienting for Efficient Neural Combinatorial Optimization

Darko Drakulić, Sofia Michel|arXiv (Cornell University)|Jan 9, 2023
Advanced Neural Network Applications被引用数 8
ひとこと要約

論文はCOPsに対する一般的なMDP定式化を提示し、状態を bisimulation による商で縮小して尾再帰的な BQ-MDP を作成し、注意機構ベースのポリシーを模倣学習で訓練して五つの COPs で最先端の一般化を示す.

ABSTRACT

Despite the success of neural-based combinatorial optimization methods for end-to-end heuristic learning, out-of-distribution generalization remains a challenge. In this paper, we present a novel formulation of Combinatorial Optimization Problems (COPs) as Markov Decision Processes (MDPs) that effectively leverages common symmetries of COPs to improve out-of-distribution robustness. Starting from a direct MDP formulation of a constructive method, we introduce a generic way to reduce the state space, based on Bisimulation Quotienting (BQ) in MDPs. Then, for COPs with a recursive nature, we specialize the bisimulation and show how the reduced state exploits the symmetries of these problems and facilitates MDP solving. Our approach is principled and we prove that an optimal policy for the proposed BQ-MDP actually solves the associated COPs. We illustrate our approach on five classical problems: the Euclidean and Asymmetric Traveling Salesman, Capacitated Vehicle Routing, Orienteering and Knapsack Problems. Furthermore, for each problem, we introduce a simple attention-based policy network for the BQ-MDPs, which we train by imitation of (near) optimal solutions of small instances from a single distribution. We obtain new state-of-the-art results for the five COPs on both synthetic and realistic benchmarks. Notably, in contrast to most existing neural approaches, our learned policies show excellent generalization performance to much larger instances than seen during training, without any additional search procedure.

研究の動機と目的

  • 任意の COP を MDP に定着させるための一般的で原理的なフレームワークを提供する。
  • 尾再帰 COP の状態空間を縮小するために対称性を bisimulation 商分割を通じて活用する。
  • 複数の COP に適用可能な Transformer ベースのポリシーを設計する。
  • より大きなインスタンスや現実的なベンチマークに対する最先端の一般化を示す。
  • BQ-MDP の最適ポリシーは追加の探索なしに関連する COPs を解くことを示す。

提案手法

  • 解空間をモノイド構造と部分解の生成子で定義する。
  • 状態を部分解、行為を構築ステップとする直接 MDP を構築し、COP の最適解と direct-MDP の最適ポリシーの同値性を証明する。
  • 尾再帰に基づく bisimulation 写像を導入し、状態を尾部問題へと縮小する BQ-MDP を構成する。これは直接 MDP を bisimulation で商した商集合である。
  • KP やパス-TSP のような尾再帰 COP に対して bisimulation を特化し、部分解を尾部問題へ写像する。
  • 小さなインスタンスのほぼ最適な軌跡からの模倣学習で適応した Transformer ベースのポリシーを提案する。
  • 計算量の分析を行い、BQ-MDP 学習が大規模・多様な分布を許容することを示し、PerceiverIO のようなリニア・アテンションモデルを用いて推論を加速する選択肢を提示する。

実験結果

リサーチクエスチョン

  • RQ1尾再帰構造を持つ直接 MDP に任意の COP を変換でき、COP の最適解が MDP の最適ポリシーと一致するか。
  • RQ2bisimulation 商分割が最適なポリシーを保持しつつ学習効率と一般化を改善する小さく等価な MDP(BQ-MDP)を生み出すか。
  • RQ3尾再帰 COP(例: KP,パス-TSP,CVRP,OP)は、部分解下で明示的な尾部問題を持ち、BQ-MDP 縮約を可能にするか。
  • RQ4模倣学習で訓練された単純な注意ベースのポリシーが五つの COP で最先端の結果と分布外一般化を達成するか。
  • RQ5大規模インスタンスでの二次的な注意と線形注意の間の計算と精度のトレードオフはどうなるか。

主な発見

  • BQ-MDP は原デ COP の最適ポリシーと等価であり、インスタンス (f,X) から開始して解くことができる。
  • bisimulation 商分割は尾再帰 COP の状態空間を大幅に削減し、部分解を尾部問題へ写像する。
  • 一様な Transformer ベースのポリシーは、Euclidean TSP、ATSP、CVRP、OP、KP で Heavy な探索を用いずに最先端の結果を達成できる。
  • 小さな近似最適インスタンスでの模倣学習によるポリシーは、未知な大規模インスタンスや現実的ベンチマークへ非常に良く一般化する。
  • ビーム探索は性能を向上させるが計算コストが高く、線形注意(PerceiverIO)などは推論を加速しつつ性能を控えめにトレードオフする。
  • このアプローチは最大1000ノードのインスタンスへ強い一般化を示し、探索や大規模な訓練 regime に依存する多くのニューラルベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。