[論文レビュー] Construct, Merge, Solve & Adapt with Reinforcement Learning for the min-max Multiple Traveling Salesman Problem
RL-CMSA は 学習した一対の街の相互作用に guided された構築探索と 正確な集合被覆 MILP および局所改善を組み合わせて、単一デポ Min–Max mTSP に取り組み、同程度の時間制限下で先行のハイブリッド GA を上回る。
The Multiple Traveling Salesman Problem (mTSP) extends the Traveling Salesman Problem to m tours that start and end at a common depot and jointly visit all customers exactly once. In the min-max variant, the objective is to minimize the longest tour, reflecting workload balance. We propose a hybrid approach, Construct, Merge, Solve & Adapt with Reinforcement Learning (RL-CMSA), for the symmetric single-depot min-max mTSP. The method iteratively constructs diverse solutions using probabilistic clustering guided by learned pairwise q-values, merges routes into a compact pool, solves a restricted set-covering MILP, and refines solutions via inter-route remove, shift, and swap moves. The q-values are updated by reinforcing city-pair co-occurrences in high-quality solutions, while the pool is adapted through ageing and pruning. This combination of exact optimization and reinforcement-guided construction balances exploration and exploitation. Computational results on random and TSPLIB instances show that RL-CMSA consistently finds (near-)best solutions and outperforms a state-of-the-art hybrid genetic algorithm under comparable time limits, especially as instance size and the number of salesmen increase.
研究の動機と目的
- 単一デポの min–max mTSP を扱い、m 本のツアーのうち最長ツアーを最小化することを目的とする。
- 構築的ソリューション生成、厳密最適化、適応のための強化学習を統合したハイブリッドフレームワークを開発する。
- Learned q 値ガイダンスと年齢ベースのプール適応を通じて探索と利用のバランスをとる。
- RL-CMSA を、同等の時間制限下で最先端のハイブリッド手法と random および TSPLIB インスタンスで比較評価する。
提案手法
- 学習済み対ペア q 値に guided された確率的クラスタリングによって多様な解を反復的に構築する。
- 構築したルートを候補プールに統合し、カノニカル署名と長さで支配的なルートを剪定する。
- 最大ルート長を最小化しつつ全顧客をカバーするよう m 本のルートを選択するための制限付き集合被覆 MILP を解く。
- 最長ルートを減らすために inter-route remove、shift、swap による解の改善を行う。
- 有益な街ペアの結合を強化し、役に立たない組み合わせを抑制するために街ペアの共起数を学習し、q値を適宜更新する。
- 候補プールを年齢ベースのポリシーで適応させ、コンパクトで最新のルート集合を維持する。
実験結果
リサーチクエスチョン
- RQ1強化学習を用いた構築的構築と適応的プール管理は、時間制限内に高品質な min–max mTSP 解を生み出せるか。
- RQ2集合被覆 MILP と対象を絞った局所探索を組み合わせると、min–max mTSP に対する強力なヒューリスティックよりも頑健な改善が得られるか。
- RQ3学習された街ペア共起(q-values)は、 balanced で高品質な解へクラスタリングを導く上で効果的か。
- RQ4年齢化と剪定が RL-CMSA フレームワークの多様性と収束維持にどのように影響するか。
主な発見
- RL-CMSA は random および TSPLIB のいずれのインスタンスでも一貫してほぼベストに近い解を見つける。
- RL-CMSA は比較的短い時間制限下で最先端のハイブリッド遺伝アルゴリズム(HGA)を上回り、インスタンスのサイズと販売員の数が増えるにつれて性能が強化される。
- 大規模で多様な候補プールと、 incumbent 解の近くでの高い活用率は、特定の m に対して性能を高める。
- 学習済み q 値は有効な街ペア共起の情報源として安定し、クラスタリングを balanced な(partitions)へ誘導する。
- 年齢ベースの適応は候補プールをコンパクトかつ更新された状態に保ち、スケーラブルな性能に寄与する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。