QUICK REVIEW

[論文レビュー] Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning

Denis Yarats, Rob Fergus|arXiv (Cornell University)|Jul 20, 2021

Reinforcement Learning in Robotics参考文献 43被引用数 67

ひとこと要約

DrQ-v2 は、データ拡張とアーキテクチャの手直しを用いた、画像に基づく連続制御のための単純なモデルフリーRLアルゴリズムであり、サンプル効率を最先端にし、ピクセルからのヒューマノイド移動を可能にする。従来の手法と比べて計算資源の負荷が格段に改善されている。

ABSTRACT

We present DrQ-v2, a model-free reinforcement learning (RL) algorithm for visual continuous control. DrQ-v2 builds on DrQ, an off-policy actor-critic approach that uses data augmentation to learn directly from pixels. We introduce several improvements that yield state-of-the-art results on the DeepMind Control Suite. Notably, DrQ-v2 is able to solve complex humanoid locomotion tasks directly from pixel observations, previously unattained by model-free RL. DrQ-v2 is conceptually simple, easy to implement, and provides significantly better computational footprint compared to prior work, with the majority of tasks taking just 8 hours to train on a single GPU. Finally, we publicly release DrQ-v2's implementation to provide RL practitioners with a strong and computationally efficient baseline.

研究の動機と目的

視覚的連続制御のための、サンプル効率が高く、計算資源に優しいモデルフリーアルゴリズムの動機づけと開発。
ピクセル観察からより難しいタスクを解くために、アルゴリズムと実装の改良を導入して DrQ を改善する。
トレーニング時間を短縮しつつ、モデルベース法と競合するまたは優れた性能を示す。
研究者と実務家のための、オープンソースで実用的なベースライン実装を提供する。

提案手法

クリップドダブルQ学習のために、2つのQ関数を持つDDPGベースのアクター-クリティックバックボーンを採用する。
報酬伝播を加速させるためにnステップリターンを取り入れる。
ピクセル観察に対して、バイリニア補間を伴うランダムシフトによるデータ拡張を適用する。
安定性と性能のために、より大きなリプレイバッファと調整されたハイパーパラメータ（例：より小さなバッチサイズ、より小さな学習率）を使用する。
スループットを向上させるために grid_sample を用いた高速な画像拡張パイプラインを実装する。
訓練中に探索ノイズ σ(t) を減衰させ、探索と利用のバランスを取る。

実験結果

リサーチクエスチョン

RQ1モデルフリーのアルゴリズムが、ピクセル観察から直接複雑なヒューマノイドの移動を解決できるか？
RQ2視覚的連続制御において、アルゴリズム変更と実装最適化の組み合わせが、最良のサンプル効率と最速のウォールクロック学習をもたらすのか？
RQ3サンプル効率と計算要件の観点で、DrQ-v2 はモデルベースの方法とどう比較されるか？
RQ4画像ベースの強化学習における性能向上を左右する主な要因（例：リプレイバッファサイズ、nステップリターン、探索スケジュール）は何か？
RQ5この問題の研究を民主化する、シンプルでスケーラブルな視覚RLのベースラインは実現可能か？

主な発見

DrQ-v2 は、DeepMind Control Suite の easy, medium, hard タスクで、サンプル効率の点で従来のモデルフリー手法を上回る。
DrQ-v2 はピクセルからヒューマノイドの移動タスクを解決する。これまでモデルフリー手法では解けていなかった。
DrQ-v2 は同じハードウェア上で、従来の DrQ 実装より約3.5倍速くウォールクロック時間で学習し、環境フレームスループット（FPS）も向上。
DrQ-v2 は単一の NVIDIA V100 GPU で 96 FPS に達することができ、難易度に応じて多くのタスクを約 2.9–86 時間程度で完了させる。
Dreamer-v2（モデルベース）と比較すると、いくつかのタスクで同等またはより良いウォールクロック効率を達成する一方、Dreamer-v2 が一部のタスクで勝ることもある。総じて DrQ-v2 はスループットが高いため学習が速い。
アブレーションにより、3ステップリターンを備えたDDPGバックボーン、より大きなリプレイバッファ、減衰する探索スケジュールへの切り替えが性能を大幅に向上させることが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。