QUICK REVIEW

[論文レビュー] Learning continuous control policies by stochastic value gradients

Nicolas Heess, Greg Wayne|arXiv (Cornell University)|Dec 7, 2015

Reinforcement Learning in Robotics参考文献 31被引用数 286

ひとこと要約

本論文は、確率的価値勾配を用いた連続制御方策の学習のための統一フレームワークを導入し、ベルマン方程式における確率性を外生的ノイズの決定的関数として扱う。モデル、価値関数、方策を経由するエンドツーエンドのバックプロパゲーションを可能にすることで、シミュレーション上での最先端の性能を達成し、SVG(1)は連続制御タスクにおいてダイナミクス、価値関数、方策の効果的な共同学習を実現している。

ABSTRACT

We present a unified framework for learning continuous control policies using backpropagation. It supports stochastic control by treating stochasticity in the Bellman equation as a deterministic function of exogenous noise. The product is a spectrum of general policy gradient algorithms that range from model-free methods with value functions to model-based methods without value functions. We use learned models but only require observations from the environment instead of observations from model-predicted trajectories, minimizing the impact of compounded model errors. We apply these algorithms first to a toy stochastic control problem and then to several physics-based control problems in simulation. One of these variants, SVG(1), shows the effectiveness of learning models, value functions, and policies simultaneously in continuous domains.

研究の動機と目的

連続制御におけるモデルフリーとモデルベース強化学習を1つの微分可能フレームワークで統合すること。
モデルベース強化学習における誤差の累積問題を解消するため、モデル予測軌道ではなく、実環境観測から学習すること。
確率的方策、価値関数、学習済みダイナミクスモデルを経由するエンドツーエンドのバックプロパゲーションを可能にすること。
価値ベースとモデルベース手法の利点を組み合わせた、スケーラブルで効果的な連続制御用アルゴリズムの開発すること。

提案手法

ベルマン方程式における確率性を外生的ノイズの決定的関数として扱い、確率的方策を経由するバックプロパゲーションを可能にする。
学習済み環境モデルを用いて状態遷移を予測するが、モデル生成軌道ではなく、実観測データを用いて学習する。
確率的価値勾配を定式化し、バックプロパゲーションによる方策、価値関数、モデルパラメータの共同最適化を可能にする。
モデルフリーおよびモデルベースの両設定にフレームワークを適用し、統一されたアルゴリズム的構造を採用する。
再パラメータライゼーションテクニックを用いて、確率的アクションを経由する勾配推定を可能にし、微分可能性を保証する。
ダイナミクスモデル、価値関数、方策を1つのエンドツーエンド学習プロセスで共同学習するSVG(1)という変種を導入する。

実験結果

リサーチクエスチョン

RQ1統一フレームワークは、連続制御におけるモデルフリーとモデルベース強化学習を効果的に統合できるか？
RQ2微分可能な強化学習フレームワーク内での方策の確率性を効率的に扱えるか？
RQ3ダイナミクスモデル、価値関数、方策の共同学習は、連続制御におけるモデル誤差の影響を軽減できるか？
RQ4バックプロパゲーションによる全コンポonentのエンドツーエンド学習によって、どの程度の性能向上が達成できるか？
RQ5複雑な制御タスクにおいて、既存のモデルフリーおよびモデルベース手法と比較して、本手法はどのように性能を発揮するか？

主な発見

提案されたフレームワークは、バックプロパゲーションを用いた方策、価値関数、ダイナミクスモデルのエンドツーエンド学習を可能にし、安定的かつ効率的な学習を実現している。
モデル予測軌道ではなく、実環境観測を用いることで、モデル誤差の累積効果を最小限に抑えることができる。
フレームワークの変種であるSVG(1)は、連続制御タスクで優れた性能を発揮し、共同学習の有効性を示している。
本手法は、1つの統一されたアルゴリズム的構造内で、モデルフリーおよびモデルベース学習を効果的にサポートしている。
物理ベースの制御問題を含むシミュレーション環境において、本手法は頑健性とスケーラビリティを示している。
外生的ノイズを介した確率的方策の微分可能取り扱いにより、勾配ベース最適化が可能になっている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。