QUICK REVIEW

[論文レビュー] Smoothed Dual Embedding Control.

Bo Dai, Albert Shaw|arXiv (Cornell University)|Dec 29, 2017

Reinforcement Learning in Robotics被引用数 5

ひとこと要約

本論文は、Fenchel双対性とNesterovのスムージングを用いて方策最適化を鞍点問題に再定式化することで、明示的な方策評価を必要とせずにオフポリシー学習を可能にする、新たな強化学習アルゴリズムであるSmoothed Dual Embedding Control (SDEC)を提案する。SDECは任意の関数近似器を用いたサンプル効率的で収束性のある学習を実現し、ベンチマーク制御タスクにおいて最先端の手法を上回る性能を達成する。

ABSTRACT

We revisit the Bellman optimality equation with Nesterov's smoothing technique and provide a unique saddle-point optimization perspective of the policy optimization problem in reinforcement learning based on Fenchel duality. A new reinforcement learning algorithm, called Smoothed Dual Embedding Control or SDEC, is derived to solve the saddle-point reformulation with arbitrary learnable function approximator. The algorithm bypasses the policy evaluation step in the policy optimization from a principled scheme and is extensible to integrate with multi-step bootstrapping and eligibility traces. We provide a PAC-learning bound on the number of samples needed from one single off-policy sample path, and also characterize the convergence of the algorithm. Finally, we show the algorithm compares favorably to the state-of-the-art baselines on several benchmark control problems.

研究の動機と目的

反復的方策評価に依存する従来の方策最適化手法の非効率性と不安定性を解消すること。
価値関数推定をポリシー更新中に必要としない、原理的でオフポリシーな強化学習アルゴリズムの開発。
双対性とスムージングを用いた理論的基盤を提供し、オフポリシー方策最適化におけるサンプル効率性と収束性を確立すること。
マルチステップのブートストラップと特徴量の履歴（エリギビリティトレース）の統合を可能にし、データ効率を向上させること。
単一のオフポリシー軌道からの必要なサンプル数にPAC学習バウンドを確立すること。

提案手法

Fenchel双対性を用いてベルマン最適性方程式を再定式化し、方策学習のための鞍点最適化問題を導出する。
双対問題にNesterovのスムージング技術を適用することで滑らかさを保証し、非滑らかな価値関数に対しても効率的な最適化を可能にする。
滑らかな双対目的関数に対する勾配ステップを直接用いることで、プライマル・デュアル更新スキームとしてSDECアルゴリズムを導出する。
ポリシーおよび価値関数の両方のコンponentsに任意の学習可能な関数近似器を採用し、柔軟な表現学習を可能にする。
マルチステップのブートストラップとエリギビリティトレースを双対定式化に統合し、サンプル効率性と時間的責任割り当てを向上させる。
単一のオフポリシー軌道からの必要なサンプル数にPAC学習バウンドを確立する。

実験結果

リサーチクエスチョン

RQ1双対性とスムージングを用いて方策最適化を滑らかな鞍点問題に再定式化し、方策評価を必要とせずにオフポリシー学習を可能にできるか？
RQ2提案された鞍点定式化は、関数近似器と勾配ベースの更新を用いてどのように効率的に解けるか？
RQ3単一の軌道からのオフポリシーデータにおける、アルゴリズムのサンプル複雑度は何か？
RQ4標準的な仮定の下でアルゴリズムは収束するか？収束速度はどの程度か？
RQ5サンプル効率性と最終的性能の観点から、最先端のオフポリシーアルゴリズムと比較してどのように異なるか？

主な発見

SDECは明示的な方策評価を必要とせず最適方策への収束を達成し、アクタ・クリティックフレームワークの原理的代替手段を提供する。
アルゴリズムは単一のオフポリシー軌道からの必要なサンプル数にPAC学習バウンドを提供し、理論的サンプル効率性を保証する。
SDECはマルチステップのブートストラップとエリギビリティトレースへ拡張可能であり、オフポリシー設定におけるデータ効率を向上させる。
実験的結果から、SDECは標準的な制御ベンチマークにおいて最先端のベースラインを上回り、優れたサンプル効率性と最終的性能を示している。
ベルマン方程式における非滑らか成分に対しても、双対定式化におけるNesterovのスムージングの使用により、安定的かつ効率的な最適化が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。