QUICK REVIEW

[論文レビュー] Decoupling Representation Learning from Reinforcement Learning

Adam Stooke, Kimin Lee|arXiv (Cornell University)|Sep 14, 2020

Reinforcement Learning in Robotics参考文献 39被引用数 65

ひとこと要約

本論文では Augmented Temporal Contrast (ATC) を提案する。RLにおける表現学習とポリシー学習を分離する教師なし学習タスクであり、ATCで学習したエンコーダは複数の環境とタスクでエンドツーエンドの RL に匹敵するかそれを上回ることを示す。

ABSTRACT

In an effort to overcome limitations of reward-driven feature learning in deep reinforcement learning (RL) from images, we propose decoupling representation learning from policy learning. To this end, we introduce a new unsupervised learning (UL) task, called Augmented Temporal Contrast (ATC), which trains a convolutional encoder to associate pairs of observations separated by a short time difference, under image augmentations and using a contrastive loss. In online RL experiments, we show that training the encoder exclusively using ATC matches or outperforms end-to-end RL in most environments. Additionally, we benchmark several leading UL algorithms by pre-training encoders on expert demonstrations and using them, with weights frozen, in RL agents; we find that agents using ATC-trained encoders outperform all others. We also train multi-task encoders on data from multiple environments and show generalization to different downstream RL tasks. Finally, we ablate components of ATC, and introduce a new data augmentation to enable replay of (compressed) latent images from pre-trained encoders when RL requires augmentation. Our experiments span visually diverse RL benchmarks in DeepMind Control, DeepMind Lab, and Atari, and our complete code is available at https://github.com/astooke/rlpyt/tree/master/rlpyt/ul.

研究の動機と目的

報酬に依存しない視覚表現をRLのために学習する動機づけを行い、報酬駆動の特徴学習の限界を克服する。
観測からRLの損失とは独立した頑健なエンコーダを学習する教師なしタスクとしてATCを提案する。
多様な環境に渡ってATCエンコード表現を用いたオンラインRLを実演する。
他の教師なし学習法と比較してATCをベンチマークし、多タスク一般化を評価する。
ATCの構成要素を理解するためアブレーションとデータ拡張の効果を探索する。

提案手法

Augmented Temporal Contrast (ATC) を導入する：軌道内で観測 o_t と近い将来の o_{t+k} を関連付ける対比タスク。
拡張観測を共有CNNエンコーダでエンコードし、線形圧縮機で潜在コードへ圧縮し、残差予測器で潜在空間上で前方を予測する。
ポジティブ用にモーメンタムエンコーダを使用し、バッチからのネガティブを用いてInfoNCE損失を適用する。
観測に確率的データ拡張（ランダムシフト）を適用し、対比前にアンカーコードを処理する予測子層を用いる。
ATC によるオフライン（教師なし）でのエンコーダ学習と、ポリシー学習は潜在表現のみに依存するようにする；ベースラインではRL中にエンコーダ重みを凍結することもある。
潜在画像リプレイを可能にし計算を削減するため、サブピクセルランダムシフトなど新しい拡張を任意に導入する。

実験結果

リサーチクエスチョン

RQ1表現学習を強化学習から切り離してポリシー性能を犠牲にせずに行えるか？
RQ2既存の UL 手法と比較して、ATC はRLのエンコーダ前処理のための優れた教師なしタスクか？
RQ3ATC で学習したマルチタスクエンコーダは新しい環境やタスクへ転移するか？
RQ4ATC の有効性にとってどのアブレーションと拡張が重要か？
RQ5DMControl, DMLab, Atari など多様なベンチマークとRLアルゴリズムにおいてATCはどう機能するか？

主な発見

ATC学習エンコーダをオンラインでRL勾配から分離して使用した場合、ほとんどのDMControlおよびDMLab環境、およびテストされたAtariゲームの半数以上でエンドツーエンドRLのエンコーダに匹敵するかそれを上回る。
事前学習済みのATCエンコーダを重み固定で使用すると、DMControl、DMLab、Atariのベンチマークで他の先進的ULアルゴリズムをしばしば上回る。
複数のDMControl環境で学習した単一のATCエンコーダは、重みを凍結したまま新しい下流タスクへ一般化できる。
ATC アブレーションは、DMControlにはデータ拡張が必要であること、サブピクセルランダムシフトが潜在画像リプレイを追加の計算なしに可能にすることを示す。
環境横断のマルチタスク事前学習は一部タスクで転送性を改善できるが、Atari ではゲーム間の転送が限定的で、表現容量とドメイン差が重要であることを示唆する。
ATC を補助損失として、または重み初期化に用いることで、いくつかの Atari のゲームで性能をさらに向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。