[論文レビュー] Optimization Issues in KL-Constrained Approximate Policy Iteration
本稿では、近似方策反復におけるKL発散正則化と制約の間の最適化トレードオフを調査し、TRPOのような制約付き手法が単純なバンディット問題ですら収束に失敗し、線形のレジットを被る可能性があるのに対し、正則化された更新ではサブラインアーなレジットとより良好な最適化の多様性が保証されることを示している。特にソフトマックス方策では顕著である。
Many reinforcement learning algorithms can be seen as versions of approximate policy iteration (API). While standard API often performs poorly, it has been shown that learning can be stabilized by regularizing each policy update by the KL-divergence to the previous policy. Popular practical algorithms such as TRPO, MPO, and VMPO replace regularization by a constraint on KL-divergence of consecutive policies, arguing that this is easier to implement and tune. In this work, we study this implementation choice in more detail. We compare the use of KL divergence as a constraint vs. as a regularizer, and point out several optimization issues with the widely-used constrained approach. We show that the constrained algorithm is not guaranteed to converge even on simple problem instances where the constrained problem can be solved exactly, and in fact incurs linear expected regret. With approximate implementation using softmax policies, we show that regularization can improve the optimization landscape of the original objective. We demonstrate these issues empirically on several bandit and RL environments.
研究の動機と目的
- KL制約付き方策反復とKL正則化付き方策反復の最適化安定性および収束特性を調査すること。
- 単純なバンディット環境ですら非収束や線形期待レジットを引き起こす制約アプローチの根本的欠陥を特定すること。
- 特にソフトマックス方策パラメータ化下での、正則化と制約の定式化の最適化の多様性を比較すること。
- CartPole や Ball in Cup といった標準的な強化学習環境において、理論的知見の実証的妥当性を検証すること。
- 理論的に正当化されたKL正則化付き更新の実装として、KL制約付き更新が安定的で実用的であるという一般的な仮定に疑問を呈すること。
提案手法
- ノイズのあるアドバンテージ推定を伴うマルチアームドバンディット設定において、KL正則化付きとKL制約付き方策更新の挙動を解析的に比較する。
- 方策改善ステップを、例えばTRPO風の制約付き最適化問題と、ミラー降下風の正則化付き最適化問題として定式化し、それぞれの更新則を導出する。
- ソフトマックスパラメータ化された方策を用いて最適化の多様性を分析し、正則化が滑らかでより良好な振る舞いを示す目的関数をもたらすことを示す。
- CartPole および Ball in Cup 環境において、TRPO, CPO, VMPO, MDPO, Surrogate などの複数のアルゴリズムを、同一のニューラルネットワークアーキテクチャを用いて実装・比較する。
- CPO および MDPO には重要度重み付き方策勾配推定法を適用し、VMPO および Surrogate にはバッチ全体を用いた方策評価を適用して、公平な比較を確保する。
- 全フェーズで固定学習率および重み初期化を用いたAdam最適化手法を採用し、KLハイパーパrameterを {0.1, 1, 5, 10, 15, 20, 25} の範囲でチューニングし、各アルゴリズムごとに最良の性能を示す値を選択する。
実験結果
リサーチクエスチョン
- RQ1ノイズのあるアドバンテージ推定を伴う単純なバンディット問題において、KL制約付き方策更新は収束を保証するか?
- RQ2ノイズのあるアドバンテージ推定の下で、TRPO風の制約付きアルゴリズムの期待レジット挙動はいかなるものか?
- RQ3特にソフトマックス方策パラメータ化下で、KL正則化は制約付き手法と比較して最適化の多様性にどのように影響するか?
- RQ4制約付きと正則化付きアルゴリズムの間で観察される実証的性能差は、最適化の安定性や収束特性に起因するか?
- RQ5CPO や MDPO と同様の要素を用いているにもかかわらず、なぜ一部の制約付きアルゴリズム(例:Surrogate)は最適方策に収束しないのか?
主な発見
- すべてのアルゴリズムを正確に実装可能な単純なマルチアームドバンディット問題ですら、制約付き方策更新(例:TRPO)は収束を保証しない。
- ノイズのあるアドバンテージ推定が劣悪な行動を選択する場合、TRPO は反復的に誤った方向に移動するため、線形の期待レジットを被る。
- これに対して、KL正則化付き更新は反復を通じてノイズを平均化し、同じバンディット問題でサブラインアーなレジットを達成する。
- ソフトマックスパラメータ化された方策では、正則化された目的関数が制約付き定式化よりもより好ましい最適化の多様性を示す。
- 実証的に、CPO は VMPO や MDPO よりもより大きな振動と遅い収束を示すが、特に最適方策付近で顕著である。
- 交差エントロピーに二乗誤差損失を追加するSurrogate目的関数は、方策の貪欲性が低下するため、最適でない方策への収束を引き起こす可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。