QUICK REVIEW

[論文レビュー] Learning to Search Feasible and Infeasible Regions of Routing Problems with Flexible Neural k-Opt

Yining Ma, Zhiguang Cao|arXiv (Cornell University)|Oct 27, 2023

Robotic Path Planning Algorithms被引用数 9

ひとこと要約

NeuOpt は VRP のための柔軟な k-opt 交換を実行する学習と探索を組み合わせたソルバーで、GIRE を導入して feasible および infeasible な領域の両方を探索し、TSP および CVRP における従来の L2S、L2C、L2P 手法を上回り、D2A 推論と GIRE の強化で改善。

ABSTRACT

In this paper, we present Neural k-Opt (NeuOpt), a novel learning-to-search (L2S) solver for routing problems. It learns to perform flexible k-opt exchanges based on a tailored action factorization method and a customized recurrent dual-stream decoder. As a pioneering work to circumvent the pure feasibility masking scheme and enable the autonomous exploration of both feasible and infeasible regions, we then propose the Guided Infeasible Region Exploration (GIRE) scheme, which supplements the NeuOpt policy network with feasibility-related features and leverages reward shaping to steer reinforcement learning more effectively. Additionally, we equip NeuOpt with Dynamic Data Augmentation (D2A) for more diverse searches during inference. Extensive experiments on the Traveling Salesman Problem (TSP) and Capacitated Vehicle Routing Problem (CVRP) demonstrate that our NeuOpt not only significantly outstrips existing (masking-based) L2S solvers, but also showcases superiority over the learning-to-construct (L2C) and learning-to-predict (L2P) solvers. Notably, we offer fresh perspectives on how neural solvers can handle VRP constraints. Our code is available: https://github.com/yining043/NeuOpt.

研究の動機と目的

VRP のための既存の学習と探索 (L2S) ソルvers の限界を動機づけて対処する。
任意の k ≥ 2 を扱える柔軟なニューラル k-opt フレームワーク (NeuOpt) を開発する。
Feasible な領域だけでなく infeasible な領域を探索し RL を報酬整形で導くための GIRE を導入する。
推論時の探索多様性を高める Dynamic Data Augmentation (D2A) を提案する。
NeuOpt と GIRE の優位性を TSP および CVRP で L2C、L2P、強力なベースラインより示す。

提案手法

任意の k≥2 の k-opt 交換を実現するために、アクション因子化を S-move、I-move、E-move に分解する Neural k-Opt (NeuOpt) を提案する。
再帰的デュアルストリーム (RDS) デコーダを用いて連続する基点移動をモデル化し、削除 edge と追加 edge の依存関係を捉える。
Guided Infeasible Region Exploration (GIRE) で方策を augment し、実現可能領域を超えた探索を可能にし、報酬整形を適用して境界探索を促す。
推論時に Dynamic Data Augmentation (D2A) を導入して探索を多様化し、局所最適解からの脱出を図る。
これらを既存の L2S の RL 手法を踏まえて、特化した目的関数と報酬構造を用いた強化学習で NeuOpt を訓練する。

実験結果

リサーチクエスチョン

RQ1VRP において任意の k≥2 の k-opt 交換を neural ソルバーが柔軟に実行できるか？
RQ2探索中に infeasible regions を探索することで、feasibility masking のみの場合より解の品質が向上するか？
RQ3D2A と GIRE の組み合わせは探索の多様性と CVRP/TSP におけるより良い解への収束を改善するか？
RQ4NeuOpt は既存の L2S、L2C、L2P 手法や従来のソルバーと標準的な VRP ベンチマークでどの程度比較可能か？

主な発見

NeuOpt は報告された実験において、従来の（マスキングベースの）L2S ソルバーを TSP および CVRP で大幅に上回る。
GIRE は strictly feasible な領域を超えた探索を可能にし、報酬整形により RL を feasible/infeasible の境界へ誘導し、探索の効果を改善する。
D2A 推論は探索の多様性を高め、局所最適解からの脱出を助け、さまざまな k-opt 設定でより良い解を生み出す。
NeuOpt は報告された設定で強力な L2C および L2P 手法や LKH-3 ソルバーと比較して競合的または優れた性能を達成する。
実験は NeuOpt が VRP 制約を扱えることを示し、制約付き経路問題に対するニューラルソルバーへの新しい視点を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。