QUICK REVIEW

[論文レビュー] Pretraining Representations for Data-Efficient Reinforcement Learning

Max Schwarzer, Nitarshan Rajkumar|arXiv (Cornell University)|Jun 9, 2021

Reinforcement Learning in Robotics参考文献 60被引用数 33

ひとこと要約

SGI（SPRを用いた自己教師付き事前学習、ゴール条件付きRL、および逆動力学）は、ラベルなしデータからオフラインで豊かな表現を学習し、少量のタスクデータでファインチューニングすることでデータ効率の高い強化学習を実現し、特に大きなモデルと高品質な事前学習データによりAtari-100kで強力な性能を達成します。

ABSTRACT

Data efficiency is a key challenge for deep reinforcement learning. We address this problem by using unlabeled data to pretrain an encoder which is then finetuned on a small amount of task-specific data. To encourage learning representations which capture diverse aspects of the underlying MDP, we employ a combination of latent dynamics modelling and unsupervised goal-conditioned RL. When limited to 100k steps of interaction on Atari games (equivalent to two hours of human experience), our approach significantly surpasses prior work combining offline representation pretraining with task-specific finetuning, and compares favourably with other pretraining methods that require orders of magnitude more data. Our approach shows particular promise when combined with larger models as well as more diverse, task-aligned observational data -- approaching human-level performance and data-efficiency on Atari in our best setting. We provide code associated with this work at https://github.com/mila-iqia/SGI.

研究の動機と目的

ラベルなし/オフラインデータを活用して表現を学習することにより、深層強化学習のデータ効率を高める動機づけ。
多様な環境側面を捉える多目的な事前学習スキームを提案する。
Atari-100k におけるデータ品質とモデルサイズに対して、オフラインSGI事前学習がどの程度スケールするかを評価する。

提案手法

潜在ダイナミクス（潜在空間での前方予測）、教師なしのゴール条件付きRL、逆動力学モデリングの3つの自己教師付き目的で共有エンコーダを事前学習する。
共有エンコーダを用いたオフライン事前学習を1段階、次にタスク固有のRL損失でファインチューニングを行い、エンコーダを凍結または学習率を抑えて適応させる2段階パイプラインを用いる。
目的を潜在空間で動作させ、パラメータを共有するよう組み合わせ、SPRの安定性を高めるため指数移動平均ターゲットネットワークを用いる。
下流タスクにはRainbow風のQ学習を用い、頑健な表現を促進するため拡張SPR損失を適用する。
Atari-100k（100k環境ステップ）条件で、事前学習データ品質をランダム、探索的、弱い、混合、オフラインDQNデータなどで変化させて評価する。

実験結果

リサーチクエスチョン

RQ1オフラインSGI事前学習は、従来の事前学習ベースラインと比較してAtari-100kでデータ効率を改善しますか？
RQ2データ品質とモデルサイズはSGIのファインチューニング性能にどのように影響しますか？
RQ3複数の自己教師付き目的を組み合わせる方が、単一の目的より有利ですか？
RQ4事前学習済み表現を保持するためにはファインチューニングをどう行うべきですか（例：学習率スケジューリング、凍結）？

主な発見

方法	中央値	平均	$>$ H	$>$ 0	データ
SimPLe	0.144	0.443	2	26	0
DER	0.161	0.285	2	26	0
DrQ	0.268	0.357	2	24	0
SPR	0.415	0.704	7	26	0
SGI-None	0.343	0.565	3	26	0
SGI-R	0.326	0.888	5	26	6M
SGI-E	0.456	0.838	6	26	6M
SGI-W	0.589	1.144	8	26	5M
SGI-M	0.679	1.149	9	26	3M
SGI-M/L	0.753	1.598	9	26	6M

SGIはAtari-100kで強力なデータ効率を達成し、SGI-M/Lは中央値HNS0.753を達成し、人間レベルの性能に近づく。
SGI-M（3Mデータ）はATC-Mを同じデータで上回る。SGI-Eは他の探索的事前学習ベースラインと同等またはそれを上回り、はるかに少ない事前学習データで達成。
データ品質とモデルサイズに応じて性能はスケールする：事前学習済みの場合、より大きなエンコーダがより恩恵を受け、より高品質なオフラインデータはファインチューニングの性能を高める。
3つのSSL目的すべてを組み合わせると最良の性能を発揮し、逆動力学モデリングは表現崩れを回避するのに役立つ。
事前学習済み表現の単純なファインチューニングは性能を低下させることがあるため、ファインチューニングの学習率を下げたりエンコーダを時折凍結したりすることで優れた結果が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。