QUICK REVIEW

[論文レビュー] Continuous Deep Q-Learning with Model-based Acceleration

Shixiang Gu, Timothy Lillicrap|arXiv (Cornell University)|Mar 2, 2016

Reinforcement Learning in Robotics参考文献 39被引用数 336

ひとこと要約

本論文は、連続アクション空間における効率的な off-policy 学習のための Normalized Advantage Functions (NAF) を用いた Continuous Q-Learning を導出し、局所に適合させた線形動力学を用いたイマジネーション・ロールアウトを導入してサンプル効率を加速する。

ABSTRACT

Model-free reinforcement learning has been successfully applied to a range of challenging problems, and has recently been extended to handle large neural network policies and value functions. However, the sample complexity of model-free algorithms, particularly when using high-dimensional function approximators, tends to limit their applicability to physical systems. In this paper, we explore algorithms and representations to reduce the sample complexity of deep reinforcement learning for continuous control tasks. We propose two complementary techniques for improving the efficiency of such algorithms. First, we derive a continuous variant of the Q-learning algorithm, which we call normalized adantage functions (NAF), as an alternative to the more commonly used policy gradient and actor-critic methods. NAF representation allows us to apply Q-learning with experience replay to continuous tasks, and substantially improves performance on a set of simulated robotic control tasks. To further improve the efficiency of our approach, we explore the use of learned models for accelerating model-free reinforcement learning. We show that iteratively refitted local linear models are especially effective for this, and demonstrate substantially faster learning on domains where such models are applicable.

研究の動機と目的

深層強化学習の連続制御タスクにおけるサンプル複雑さを削減する。
連続アクションに適したデュアルアクター・クリティックの複雑さを回避する Q-learning 変種を開発する。
モデルベースの加速技術を検討しつつ、モデルフリーの利点を保持する。
提案手法をシミュレートされたロボット制御ベンチマークで評価する。

提案手法

Q(x,u) を V(x) + A(x,u) の形に分解し、A を (u - mu(x)) に関して二次形式とする連続 Q-learning 変種（NAF）を提案する。
最大化作用素 mu(x) を解析的に得られるように Q 関数をパラメータ化する。
深層ネットワークを用いて V, mu, および A を定義する正定値行列 P(x) を出力し、A(x,u) = -1/2 (u - mu(x))^T P(x) (u - mu(x)) とする。
経験再現、ターゲットネットワーク、ベルマンバックアップなど、標準的な深層 Q 学習ツールを用いて学習する。
イマジネーション・ロールアウトを導入する：現実の経験を、学習した局所線形動力学モデルからの合成的なオンポリシー・ロールアウトで補完し、学習を加速する（Dyna 的手法）。
動力学を局所的に時変線形モデルとして適合させ、サンプルされた状態の周囲で短いロールアウトを用いて追加の訓練データを生成する。

実験結果

リサーチクエスチョン

RQ1正規化されたアドバンテージ関数 (NAF) は、DDPG のようなアクタークリティック法と比較して連続アクション空間でサンプル効率の良い Q-learning を提供するか。
RQ2局所に適合させたダイナミクスを用いるモデルベースのイマジネーション・ロールアウトは、最終的な性能を損なうことなくモデルフリーの Q 学習を意味的に加速できるか。
RQ3真のダイナミクスと学習済みのダイナミクスを用いる場合のイマジネーション・ロールアウトの利点にどのような影響があるか。
RQ4オフポリシー計画信号（例：iLQG 軌道）は、オンポリシーのイマジネーション・ロールアウトと比較して学習をどの程度加速するか。
RQ5不完全なダイナミクス・モデルに対するイマジネーション・ロールアウト手法の限界と感度はどの程度か。

主な発見

Domains	DDPG reward	DDPG episodes	NAF reward	NAF episodes
Cartpole	-2.1	-0.601	420	-0.604	190
Reacher	-2.3	-0.509	1370	-0.331	1260
Peg	-11	-0.950	690	-0.438	130
Gripper	-29	1.03	2420	1.81	1920
GripperM	-90	-20.2	1350	-12.4	730
Canada2d	-12	-4.64	1040	-4.21	900
Cheetah	-0.3	8.23	1590	7.91	2390
Swimmer6	-325	-174	220	-172	190
Ant	-4.8	-2.54	2450	-2.58	1350
Walker2d	0.3	2.96	850	1.85	1530

NAF は多くの操作タスクで DDPG を上回り、収束の速さとターゲット状態での精度を提供する。
移動タスクでは、NAF と DDPG の性能はより互角であり、ドメインによってNAF がやや優れる場合もあれば劣る場合もある。
イマジネーション・ロールアウトは、時変線形動力学を反復的に適合させることで、到達タスクのような制御タスクにおけるデータ効率を大幅に改善する（2–5倍）。
イマジネーション・ロールアウトに真のダイナミクスを用いると大きな利得が得られる一方、学習済みのニューラルネットダイナミクスは利点を打ち消す可能性がある。局所的に適合した線形モデルが好ましい。
オフポリシー iLQG 探索は、イマジネーション・ロールアウトだけと比較して限定的または一貫性のない改善を提供する場合がある；オンポリシーのイマジネーション・ロールアウトは一貫して有益である。
イマジネーション・ロールアウトは初期学習段階で最も有益であり、Q 関数がより正確になるにつれて利益が薄れる可能性があるため、ハイブリッドなモデルフリーの最終段階を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。