[論文レビュー] Breaking the Grid: Distance-Guided Reinforcement Learning in Large Discrete and Hybrid Action Spaces
この論文はサンプルされた動的近傍(SDN)と距離ベースの更新(DBU)を組み合わせたフレームワークDGRLを提案し、最大10^20の行動空間(ハイブリッドな離散-連続行動を含む)でスケーラブルな強化学習を可能にします。理論的保証を提供し、様々な構造的・不規則なドメインにおいてベンチマークを最大で66%上回る性能を示します。
Reinforcement Learning is increasingly applied to logistics, scheduling, and recommender systems, but standard algorithms struggle with the curse of dimensionality in such large discrete action spaces. Existing algorithms typically rely on restrictive grid-based structures or computationally expensive nearest-neighbor searches, limiting their effectiveness in high-dimensional or irregularly structured domains. We propose Distance-Guided Reinforcement Learning (DGRL), combining Sampled Dynamic Neighborhoods (SDN) and Distance-Based Updates (DBU) to enable efficient RL in spaces with up to 10$^\text{20}$ actions. Unlike prior methods, SDN leverages a semantic embedding space to perform stochastic volumetric exploration, provably providing full support over a local trust region. Complementing this, DBU transforms policy optimization into a stable regression task, decoupling gradient variance from action space cardinality and guaranteeing monotonic policy improvement. DGRL naturally generalizes to hybrid continuous-discrete action spaces without requiring hierarchical dependencies. We demonstrate performance improvements of up to 66% against state-of-the-art benchmarks across regularly and irregularly structured environments, while simultaneously improving convergence speed and computational complexity.
研究の動機と目的
- 非常に大規模な離散行動空間およびハイブリッド行動空間における次元の呪いの課題に対処する。
- 潜在的な距離構造を活用して探索と更新を guía するスケーラブルなRLフレームワークを開発する。
- 単調なポリシー改善と分散に依存しない更新の理論的保証を提供する。
- ロジスティクス、スケジューリング、レコメンドシステム領域で最先端ベースラインに対する経験的優位を示す。
提案手法
- Distance-Guided Reinforcement Learning(DGRL)を二つの構成要素として提案する:サンプリング動的近傍(SDN)と距離ベース更新(DBU)。
- SDNは連続プロトアクションの周りにチェビシェフ(L_infty)信頼領域を構築し、評価用のK個の離散アクション候補をサンプリングして探索の次元を検索深度から分離する。
- DBUは高分散なポリシー更新を denoise された action η̄(SDN候補のソフトマックス加重平均を介して計算)をターゲットとする監視学習のような回帰目的に置き換える。
- アクターは連続的なプロアクションを緩和された空間で出力し、それをスケーリングステップを通じて離散行動空間へ写像する。
- ハイブリッド空間ではSDNが離散成分と連続成分を共同にサンプリングし、DBUは全アクションベクトルに対して統一的な距離ベースの損失を課す。
- 理論結果は次元に依存しない探索、行動の基数に依存しない分散、局所的滑らかさの仮定下での単調なポリシー改善を示す。

実験結果
リサーチクエスチョン
- RQ1RLをLDASおよびハイブリッド行動空間へ、グリッド構造や高価な最近傍探索に頼らずスケールさせるにはどうすればよいか。
- RQ2距離ベースの回帰スタイルの更新が勾配分散を低減し、巨大な行動空間で安定した学習を可能にするか。
- RQ3離散・連続のハイブリッド行動を統一的に扱うことが階層的手法よりも良い共同行 optim を促進するか。
- RQ4DGRLのカバー範囲、分散、単調改善に関する理論的保証はどのようなものか。
- RQ5定常的・不規則な構造の領域で、DGRLは最先端ベースラインよりも empirical にどの程度性能を示すか。
主な発見
| |A| | DGRL | DNC (SA) | Cacla | Wolp. | LAR |
|---|---|---|---|---|---|
| $5^{5}$ | 3.3 | 12.8 | 0.1 | 1.1 | 0.2 |
| $10^{10}$ | 3.4 | 19.4 | 0.1 | - | - |
| $20^{20}$ | 3.4 | 33.6 | 0.1 | - | - |
| $50^{50}$ | 3.2 | 80.2 | 0.1 | - | - |
- DGRLは最大10^20の行動空間においてベンチマークを最大66%上回る性能を達成。
- SDNはN次元で次元に依存しない線形時間の探索を提供し、体積的探索をスケーラブルに実現。
- DBUは行動空間の基数に依存しない勾配分散を保証し、安定した学習を促進。
- DGRLは規則的・不規則な構造を含むハイブリッド行動空間を含む場面で、収束速度とロバスト性の点で優れる。
- 実験では、迷路、レコメンド、ジョブショップスケジューリング、在庫問題において離散およびハイブリッドベースラインを上回る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。