QUICK REVIEW

[論文レビュー] Deeply AggreVaTeD: Differentiable Imitation Learning for Sequential Prediction

Wen Sun, Arun Venkatraman|arXiv (Cornell University)|Mar 3, 2017

Reinforcement Learning in Robotics参考文献 35被引用数 84

ひとこと要約

AggreVaTeD はオンラインおよび自然勾配更新を活用して、逐次予測の微分可能な模倣学習へ AggreVaTe を拡張します。深層モデルを用いた逐次タスクにおいて、オラクルを活用することでデータ効率の高い学習を実現します。

ABSTRACT

Researchers have demonstrated state-of-the-art performance in sequential decision making problems (e.g., robotics control, sequential prediction) with deep neural network models. One often has access to near-optimal oracles that achieve good performance on the task during training. We demonstrate that AggreVaTeD --- a policy gradient extension of the Imitation Learning (IL) approach of (Ross & Bagnell, 2014) --- can leverage such an oracle to achieve faster and better solutions with less training data than a less-informed Reinforcement Learning (RL) technique. Using both feedforward and recurrent neural network predictors, we present stochastic gradient procedures on a sequential prediction task, dependency-parsing from raw image data, as well as on various high dimensional robotics control problems. We also provide a comprehensive theoretical study of IL that demonstrates we can expect up to exponentially lower sample complexity for learning with AggreVaTeD than with RL algorithms, which backs our empirical findings. Our results and theory indicate that the proposed approach can achieve superior performance with respect to the oracle when the demonstrator is sub-optimal.

研究の動機と目的

シーケンスタスクでの学習を加速させるためにコスト-to-goを提供するオラクルを活用する。
深層ニューラルポリシー（LSTMを含む）と互換性のある differentiable IL 手法を開発する。
勾配ベースの学習手順（通常の勾配と自然勾配）を理論的裏付けとともに提供する。
ロボット制御およびシーケンス予測タスクでの実証的性能向上を示す。
離散 MDP における RL と比較したサンプル効率の高い IL の保証を提供する。

提案手法

Ross & Bagnell (2014) からのオンライン・ノー・レート学習削減を用いて IL を differentiable policy gradient 問題として定式化する。
loss ell_n(pi) = (1/H) sum_t E_{s_t~d_t^{pi_n}} E_{a~pi(.|s_t)}[Q_t^*(s_t,a)] を導出する。
離散アクションについては式 (3) で勾配を計算し、連続アクションには式 (4) を用いた重要度重み付けにより勾配を計算する。
Fisher 情報に基づく自然勾配更新を伴うオンライン勾配降下（OGD）と指数勾配（EG）を提供する（式 8, 9）。
エキスパートと学習者のポリシーを混在させ、混合率 α_n を減衰させる AggreVaTeD を導入する（アルゴリズム 1）。
分散削減勾配推定量（式 12, 13）と CG ベースの効率的な自然勾配ステップを実装する。
近似的な Fisher 行列 S_n S_n^T を用いてスケーラブルな更新を可能とする（CG 解法）。

実験結果

リサーチクエスチョン

RQ1 differentiable imitation learning がオラクルと共に、逐次予測タスクにおいて標準的な RL よりも学習を速く、データ効率が高く達成できるか？
RQ2オンライン勾配と自然勾配の AggreVaTeD のバリアントが、深層モデルを用いた場合にサンプル効率と最終性能の点でどう比較されるか？
RQ3部分観測入力を持つ場合の LSTMs による AggreVaTeD の有効性は？
RQ4 雑音を含む Q* 推定を含む離散 MDP における IL の効率性に関する理論保証は RL に対してどの程度妥当か？
RQ5 AggreVaTeD は高次元のロボティクスおよびシーケンス予測ベンチマークで、RL や従来の IL 手法と比較してどのような性能を示すか？

主な発見

アプローチ	UAS / 報酬	分散	ノート
AggreVaTeD (LSTM)	0.924 ± 0.10	–	依存構文解析（手書き代数）
AggreVaTeD (NN)	0.851 ± 0.10	–	依存構文解析（手書き代数）
SL-RL (LSTM)	0.826 ± 0.09	–	監視学習に近い RL のベースライン
SL-RL (NN)	0.386 ± 0.10	–	監視学習に近い RL のベースライン
RL (LSTM)	0.256 ± 0.07	–	強化学習ベースライン
RL (NN)	0.227 ± 0.06	–	強化学習ベースライン
DAGGER	0.832 ± 0.02	–	模倣学習ベースライン
SL (LSTM)	0.813 ± 0.10	–	監視学習ベースライン
SL (NN)	0.325 ± 0.20	–	監視学習ベースライン
Random	~0.150	–	ランダムポリシ

AggreVaTeD はオラクルがサブ最適であってもエキスパートレベルまたはそれ以上の性能を達成でき、非対話的な IL アプローチを上回る。
自然勾配更新は、通常の勾配更新よりも多くのタスクで高速かつより堅牢な改善をもたらす傾向がある。
ロボティクスのタスク（CartPole、Acrobot、Walker、Hopper）において、AggreVaTeD は学習速度と最終報酬の点で基準 RL を大幅に上回る。
部分観測設定の依存関係解析（LSTM ポリシー）では AggreVaTeD が専門家性能の 92% に到達する一方、 RL は困難。
依存関係解析の実験では、LSTMs を用いた AggreVaTeD が 0.924 UAS（±0.10）を達成し、さまざまなベースラインよりも大きな利得を示し、 differentiable IL の効果を示す。
理論的結果として、 IL は構成された MDP で RL よりサンプル複雑性が指数的に低くなり得ること、一般的な離散 MDP に対して多項式の保証が成り立つことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。