QUICK REVIEW

[論文レビュー] SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation

Bo Dai, Albert Shaw|arXiv (Cornell University)|Dec 29, 2017

Adaptive Dynamic Programming Control被引用数 120

ひとこと要約

SBEEDはベルマン方程式を平滑化を伴うプライマル-デュアル鞍点問題へ再表現し、ニューラルネットワークなどの非線形関数近似器を用いた収束性のある強化学習を実現します。連続制御タスクにおいて収束保証と有利な経験的結果を提供します。

ABSTRACT

When function approximation is used, solving the Bellman optimality equation with stability guarantees has remained a major open problem in reinforcement learning for decades. The fundamental difficulty is that the Bellman operator may become an expansion in general, resulting in oscillating and even divergent behavior of popular algorithms like Q-learning. In this paper, we revisit the Bellman equation, and reformulate it into a novel primal-dual optimization problem using Nesterov's smoothing technique and the Legendre-Fenchel transformation. We then develop a new algorithm, called Smoothed Bellman Error Embedding, to solve this optimization problem where any differentiable function class may be used. We provide what we believe to be the first convergence guarantee for general nonlinear function approximation, and analyze the algorithm's sample complexity. Empirically, our algorithm compares favorably to state-of-the-art baselines in several benchmark control problems.

研究の動機と目的

非線形関数近似器を用いたベルマンベースの手法の不安定性と発散を解決する。
安定した最適化を可能にする平滑化されたベルマン演算子を導入する。
二重サンプル問題を回避しオフポリシー学習をサポートするプライマル-デュアル目的を開発する。
非線形関数近似の収束保証とサンプル複雑性解析を提供する。
ベンチマーク制御問題での経験的性能を示す。
連続・離散アクション空間の双方へ拡張し、価値関数推定と方策最適化を統一する。

提案手法

Nesterov平滑化による平滑化されたエントロピー正則化付き最大化としてベルマン方程式を再表現し、唯一の不動点を持つ整約作用素を得る。
値関数V、方策π、そしてデュアル変数ν（またはρ）を結ぶプライマル-デュアル目的を導出し、非滑らかなmax演算子なしで最適化を可能にする。
二乗ベルマン誤差をフェンセル共役を用いて鞍点問題に変換し、二重サンプル問題を避ける。
二人プレーヤー（ミニマックス）目的 Lη(V,π;ρ) を導入し、ベルマン残差の二乗と分散キャンセルデュアル項のトレードオフを取る。
Vとπの非線形近似器を更新する確率的鏡降法アルゴリズム（SBEED）を開発し、デュアル更新を解けるようにする。
定常点への収束、一般化境界、および平滑化バイアスと近似誤差を含む明示的な誤差分解を理論的に保証する。

実験結果

リサーチクエスチョン

RQ1ベルマン方程式を解く際に非線形関数近似器はオフポリシーRLの収束をもたらすか。
RQ2ベルマン演算子の平滑化とプライマル-デュアル形によりニューラルネットワークで安定性と収束を保証するか。
RQ3提案されたSBEEDフレームワークは、連続制御タスクでサンプル効率と頑健性が最先端のベースラインと比較してどうか。
RQ4平滑化パラメータの影響がバイアス・分散のトレードオフおよび実務上の全体誤差に与える影響は何か。
RQ5方法は連続および離散アクション空間の両方を統一された目的関数で扱えるか。

主な発見

SBEEDはオフポリシーRLにおける一般的な非線形関数近似に対する収束保証を提供する。
平滑化ベルマン演算子は収縮を維持し、λ>0 に対して唯一の不動点 Vλ* を保証する。
扱いやすいプライマル-デュアル形式は二重サンプル問題を回避し、確率的勾配更新を可能にする。
このアルゴリズムはニューラルネットワークで安定した学習を達成し、連続制御ベンチマークで好ましい経験的性能を示す。
平滑化バイアス、近似誤差、統計誤差を明示的に分解し、λ→0 かつデータが増えると V* へ収束する。
SBEEDは価値推定と方策最適化を統一し、多段ブーツトリッピングと適格性トレースの双方をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。