QUICK REVIEW

[論文レビュー] Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels

Ilya Kostrikov, Denis Yarats|arXiv (Cornell University)|Apr 28, 2020

Domain Adaptation and Few-Shot Learning被引用数 171

ひとこと要約

DrQはデータ正則化Qを導入し、ピクセルデータ拡張の簡易なフレームワークで、Q-関数と価値ターゲットを正則化してピクセル直接からの堅牢な学習を可能にし、モデルフリーRLでDeepMind ControlとAtari 100kの最先端結果を達成する。

ABSTRACT

We propose a simple data augmentation technique that can be applied to standard model-free reinforcement learning algorithms, enabling robust learning directly from pixels without the need for auxiliary losses or pre-training. The approach leverages input perturbations commonly used in computer vision tasks to regularize the value function. Existing model-free approaches, such as Soft Actor-Critic (SAC), are not able to train deep networks effectively from image pixels. However, the addition of our augmentation method dramatically improves SAC's performance, enabling it to reach state-of-the-art performance on the DeepMind control suite, surpassing model-based (Dreamer, PlaNet, and SLAC) methods and recently proposed contrastive learning (CURL). Our approach can be combined with any model-free reinforcement learning algorithm, requiring only minor modifications. An implementation can be found at https://sites.google.com/view/data-regularized-q.

研究の動機と目的

補助的損失や事前学習なしに、画像観察から直接サンプル効率の良い強化学習を動機づける。
入力の摂動と価値関数の正則化が、ピクセルからのオフポリシーRLにおける過剰適合を減らすことを示す。
DrQがDeepMind controlスイートとAtari 100kで最先端の性能を発揮することを示す。
SACとDQNと組み合わせることができる、実用的でアルゴリズムに依存しない実装を提供する。

提案手法

リプレイバッファからサンプリングする場合のみ、観測に対して画像変換（ランダムシフト）を適用する。
最適性不変の状態変換を導入し、変換後の状態が同じQ値を返すようにしてQ関数を正則化する。
複数の拡張変換にわたってターゲットQ値を集約し、推定分散を低減する。
複数の拡張にわたってQ関数を集約し、学習を正則化する（ターゲットQとオンラインQの双方）。
これらの機構をDrQに組み込み、コアアルゴリズムを変更せずに標準のオフポリシーアクター-クリティック（SACとDQN）と組み合わせる。

実験結果

リサーチクエスチョン

RQ1単純な画像ベースの拡張がQ学習を正則化し、ピクセルから直接効果的な学習を可能にするだろうか？
RQ2最適性を保持する状態とターゲットの変換は、ピクセルからのオフポリシーRLにおける安定性とデータ効率を改善するか？
RQ3DrQはDeepMind Control SuiteとAtari 100kにおいて、最先端のモデルフリーおよびモデルベースの手法と比べてどのように性能を発揮するか？
RQ4タスクとハイパーパラメータ設定全般に対して頑健で、実装の容易さを保てるか？

主な発見

ピクセル拡張を用いたDrQはDeepMind controlスイートで強い性能を達成し、いくつかのモデルベースおよびコントラスト法を上回る。
DrQはデータ効率を向上させ、内部状態で訓練されたSACと同等かそれを上回ることが多く、補助的損失やワールドモデルを必要としない。
Atari 100kでは、DrQをEfficient DQNと組み合わせることで、同等の手法の中で新しい最先端の中央値パフォーマンスを設定する。
この手法は実装が簡単で、計算負荷はほとんど追加されず、ハイパーパラメータ設定に対して頑健である。
DrQはDQNに似たエージェントにも改善をもたらし、アクション空間全般にわたる広い適用性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。