Skip to main content
QUICK REVIEW

[論文レビュー] Data-Efficient Learning of Feedback Policies from Image Pixels using Deep Dynamical Models

John-Alexander M. Assael, Niklas Wahlström|arXiv (Cornell University)|Oct 8, 2015
Reinforcement Learning in Robotics参考文献 30被引用数 24
ひとこと要約

本論文は、画像ピクセルから直接閉ループ制御方策を学習するためのデータ効率的でモデルベースの強化学習アルゴリズムを提案する。深動的モデル(DDM)を用いて、画像の低次元特徴埋め込みとその潜在空間における予測モデルを同時に学習することで、正確な長期予測と効率的な非線形モデル予測制御を実現する。本手法は、従来手法と比較して顕著に少ないパラメータ数で、4,000サンプル未満のデータで複雑な二重倒立振子の制御に成功した。

ABSTRACT

Data-efficient reinforcement learning (RL) in continuous state-action spaces using very high-dimensional observations remains a key challenge in developing fully autonomous systems. We consider a particularly important instance of this challenge, the pixels-to-torques problem, where an RL agent learns a closed-loop control policy ("torques") from pixel information only. We introduce a data-efficient, model-based reinforcement learning algorithm that learns such a closed-loop policy directly from pixel information. The key ingredient is a deep dynamical model for learning a low-dimensional feature embedding of images jointly with a predictive model in this low-dimensional feature space. Joint learning is crucial for long-term predictions, which lie at the core of the adaptive nonlinear model predictive control strategy that we use for closed-loop control. Compared to state-of-the-art RL methods for continuous states and actions, our approach learns quickly, scales to high-dimensional state spaces, is lightweight and an important step toward fully autonomous end-to-end learning from pixels to torques.

研究の動機と目的

  • 高次元で連続的な状態・行動空間において、画像観測のみを用いたデータ効率的強化学習の課題に取り組む。
  • エンジニアド特徴量や示範データに依存せずに、ピクセルからトルクへのエンドツーエンドの学習を可能にする。
  • 低次元潜在空間における特徴表現とダイナミクスの共同学習により、視覚ベース制御における長期予測精度を向上させる。
  • E2C や PILCO といった最先端手法と比較して、モデルの複雑さと訓練データ要件を低減する。
  • 最小限の相互作用データを用いて、複雑な力学系(平面二重倒立振子)の有効な制御を実証する。

提案手法

  • 深動的モデル(DDM)は、画像ピクセルの低次元特徴埋め込みと、その潜在空間におけるシステムダイナミクスの予測モデルを同時に学習する。
  • DDM は、ボトルネック層(次元=4)を介して画像入力をコンactな表現に圧縮するオートエンコーダアーキテクチャを採用し、その後にReLU活性化関数を用いた予測モデルを配置する。
  • 時間的整合性を促進する新しい訓練目的を導入することで、モデルベース制御における長期予測品質が向上する。
  • 非線形モデル予測制御(NMPC)は、DDMの予測結果を用いて価値関数近似なしにリアルタイムで最適トルクを計算する。
  • DDM 訓練の前に、入力次元を2304から512ピクセルにまで主成分分析(PCA)で低減することで収束を加速する。
  • 画像空間ではなく低次元特徴空間で動作するため、直接的な画像からダイナミクスへのモデリングを回避し、画像ベースの代替手法と比較してパラメータ数を最大20倍まで削減できる。

実験結果

リサーチクエスチョン

  • RQ1深動的モデルは、画像特徴表現とシステムダイナミクスを同時に学習することで、ピクセルからのデータ効率的方策学習を可能にするか?
  • RQ2特徴量とダイナミクスの共同学習は、事前学習済みオートエンコーダーと比較して、長期予測精度を向上させるか?
  • RQ3潜在空間におけるダイナミクスを利用するモデルベースRLアプローチは、二重倒立振子のような複雑なシステムを最小限の訓練データで有効に制御できるか?
  • RQ4E2C や PILCO といった最先端手法と比較して、本手法はピクセル入力のみを用いた場合に、データ効率性とパラメータ数の両面で優れているか?
  • RQ5潜在空間における時間的整合性は、モデル予測制御の予測性能をどの程度向上させるか?

主な発見

  • 提案手法のDDMベースのアプローチは、4,000サンプル未満で平面二重倒立振子を目標角度の10°以内に到達させることに成功した。
  • わずか3回の制御試行後には、ほぼすべてのケースで両方の振り子を安定に制御するに至り、急速な学習を示した。
  • 潜在空間におけるダイナミクスモデリングにより、E2C よりも約4〜20倍も少ないモデルパラメータ数で実現可能であり、前処理の種別によっても異なる。
  • 標準的な再構成誤差のみで訓練されたオートエンコーダーからの特徴量を用いた場合、PILCOは意味のある方策を学習できなかった。これは、特徴多様体が滑らかでないためである。
  • 特徴エンコーダーと予測モデルの共同訓練により、滑らかな潜在ダイナミクスが得られ、効果的なNMPCに不可欠な正確な長期予測が可能になった。
  • 本アルゴリズムは、ターゲット状態付近の潜在空間に学習を集中させることで、実システムとの相互作用回数を削減し、高いデータ効率を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。