[論文レビュー] Control Regularization for Reduced Variance Reinforcement Learning
本論文は CORE-RL を紹介する。深層強化学習ポリシーと制御事前情報を混合する機能的正則化手法で、連続制御タスクにおける学習時の分散を低減し安定性を保持する。
Dealing with high variance is a significant challenge in model-free reinforcement learning (RL). Existing methods are unreliable, exhibiting high variance in performance from run to run using different initializations/seeds. Focusing on problems arising in continuous control, we propose a functional regularization approach to augmenting model-free RL. In particular, we regularize the behavior of the deep policy to be similar to a policy prior, i.e., we regularize in function space. We show that functional regularization yields a bias-variance trade-off, and propose an adaptive tuning strategy to optimize this trade-off. When the policy prior has control-theoretic stability guarantees, we further show that this regularization approximately preserves those stability guarantees throughout learning. We validate our approach empirically on a range of settings, and demonstrate significantly reduced variance, guaranteed dynamic stability, and more efficient learning than deep RL alone.
研究の動機と目的
- 連続制御のためのモデルフリー強化学習における高い分散の低減を動機づける。
- 関数空間で RL と制御事前情報を混合するポリシー正則化フレームワークを提案する。
- 正則化がバイアス-分散のトレードオフを生み、堅牢な事前情報による安定性保証を提供することを示す。
- 学習信号に基づいて正則化重みを適応的に調整する戦略を開発する。
- 複数のベンチマークを横断して分散低減、安定性、および学習効率を実証的に検証する。
提案手法
- RL ポリシーと制御事前情報を混合する mixed policy を次のように定義する:u_k(s) = (1/(1+λ)) u_{θ_k}(s) + (λ/(1+λ)) u_prior(s).
- この混合ポリシーは、重み λ を持つ RL ポリシーに対する機能的正則化と等価であることを示す。
- バイアス-分散のトレードオフを証明する:分散は (1/(1+λ))^2 の因子で減少し、バイアスは事前情報のサブ最適性 (D_sub) に依存する。
- 学習の信頼度を反映する TD 誤差の大きさに基づく λ の適応スキームを提供する(λ(s) = λ_max(1 - e^{-C|δ|}))。
- H-infinity プライアを用いた制御理論的安定性保証と Lyapunov 分析を確立し、学習中の安定領域 S_st を境界付ける。
- CORE-RL アルゴリズムの手順を説明する:制御事前情報を計算し、λ を適応的または固定で決定し、混合ポリシーを適用し、データを収集し、RL ポリシーを更新する。
実験結果
リサーチクエスチョン
- RQ1制御ベースの機能的正則化が性能を大きく犠牲にすることなく、方策勾配 RL の分散を低減できるか?
- RQ2CORE-RL を用いたとき、堅牢な制御事前情報からの安定性保証は学習全体を通じて成立するか?
- RQ3TD誤差に駆動された適応的な λ は、タスク全体で学習効率とロバスト性を向上させるか?
- RQ4実データとシミュレーションのベンチマークで、CORE-RL はベースラインRLおよび制御事前情報と比較してどう性能を発揮するか?
- RQ5正則化が探索可能な状態領域および最終ポリシーのバイアスに与える影響はどのようか?
主な発見
- CORE-RL はベースライン深層RLと比較してポリシー更新の分散を著しく低減する。
- 堅牢な制御事前情報を使用した場合、学習全体を通じて制御理論的安定性保証を維持する。
- TD誤差に基づく適応的 λ は、タスクを通じて学習効率と最終性能を向上させる。
- カートポール、実データを用いた車両追従、TORCS の経験的結果は、制御事前情報および RL ベースラインより報酬が改善されることを示す。
- 中間の正則化重みが分散を抑えつつ最良の学習性能をもたらし、λ が高すぎると探索を過剰に制約する。
- 理論分析は正則化強度と探索可能な状態領域およびバイアス-分散トレードオフを結び付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。