[論文レビュー] Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization
要約: PDNAC-NC を提案する。平均報酬 CMDP のための primal–dual 自然 actor–critic 法で、ニューロン評論家を用い、混合時間オラクルなしで global な収束とサブ線形の制約違反を証明する。
We study infinite-horizon Constrained Markov Decision Processes (CMDPs) with general policy parameterizations and multi-layer neural network critics. Existing theoretical analyses for constrained reinforcement learning largely rely on tabular policies or linear critics, which limits their applicability to high-dimensional and continuous control problems. We propose a primal-dual natural actor-critic algorithm that integrates neural critic estimation with natural policy gradient updates and leverages Neural Tangent Kernel (NTK) theory to control function-approximation error under Markovian sampling, without requiring access to mixing-time oracles. We establish global convergence and cumulative constraint violation rates of $ ilde{\mathcal{O}}(T^-1/4)$ up to approximation errors induced by the policy and critic classes. Our results provide the first such guarantees for CMDPs with general policies and multi-layer neural critics, substantially extending the theoretical foundations of actor-critic methods beyond the linear-critic regime.
研究の動機と目的
- 平均報酬 CMDP 下で安全かつ高次元の制御を動機づける。
- 連続設定のためのニューラル評論家を用いた primal–dual actor–critic フレームワークを開発する。
- 一般的なポリシーパラメータ化と多層ニューラル評論家に対する収束保証を提供する。
- MLMC ベースの軌道推定により混合時間オラクルへ依存せずに済む。
- NN ベースの関数近似下で制約違反と最適性ギャップを定量化する。
提案手法
- PDNAC-NC: primal–dual natural actor–critic にニューラル評論家を組み込む。
- 評論家パラメータを初期化近傍に制約することで Neural Tangent Kernel (NTK) レジームを利用する。
- データを捨てずにマルコフ性バイアスを補正するために Multi-Level Monte Carlo (MLMC) 推定量を用いる。
- 目的関数の勾配の自然勾配を用いて F( heta)^{-1} 旧勾配で方針を更新する。
- 評論家ベースの目的関数とサドル点ラグラージを通じて平均報酬と制約コストを推定する。
- NTK レジーム内で近似誤差を線形化したニューラル評論家解析を提供する。
実験結果
リサーチクエスチョン
- RQ1一般的なポリシーパラメータ化と多層ニューラル評論家を用いた primal–dual actor–critic アルゴリズムは、マルコフサンプリング下で平均報酬 CMDP に対してグローバル収束するか。
- RQ2混合時間オラクルの仮定を回避しつつ収束保証を維持できるか。
- RQ3NTK レジームにおけるニューラル評論家の近似が CMDP における NPG 更新の安定性と収束性にどう影響するか。
- RQ4ニューラル評論家と一般ポリシーでの平均報酬 CMDP の収束速度と制約違反境界はどうなるか。
主な発見
- 一般的なポリシーと多層ニューラル評論家を用いた平均報酬 CMDP に対する PDNAC-NC のグローバル収束を確立。
- 累積制約違反と最適性ギャップの減衰を tilde{O}(T^{-1/4}) の速度で証明。
- MLMC を実装して混合時間オラクルへの依存を排しつつバイアス補正推定を維持。
- NTK 還元近傍に評論家パラメータを制約してニューラル評論家のバイアスを抑制し、線形化解析を可能に。
- NTK レジームのニューラル評論家は、一般ポリシーパラメータ化への収束保証を線形評論家を超えて拡張可能であることを示す。
- MLMC は最大サンプル数 T_max の使用と同等のバイアスを、平均サンプル数 O(log T_max) のみで達成することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。