QUICK REVIEW

[論文レビュー] Reinforcement Learning with Prototypical Representations

Denis Yarats, Rob Fergus|arXiv (Cornell University)|Feb 22, 2021

Reinforcement Learning in Robotics参考文献 56被引用数 42

ひとこと要約

Proto-RLは、自己教師あり学習を通じて学習した連続表現と、探索を推進しポリシー学習を改善するための離散的なプロトタイプ構造を組み合わせたモデルフリー RL 手法であり、BYOLと SwAV に触発されています。

ABSTRACT

Learning effective representations in image-based environments is crucial for sample efficient Reinforcement Learning (RL). Unfortunately, in RL, representation learning is confounded with the exploratory experience of the agent -- learning a useful representation requires diverse data, while effective exploration is only possible with coherent representations. Furthermore, we would like to learn representations that not only generalize across tasks but also accelerate downstream exploration for efficient task-specific training. To address these challenges we propose Proto-RL, a self-supervised framework that ties representation learning with exploration through prototypical representations. These prototypes simultaneously serve as a summarization of the exploratory experience of an agent as well as a basis for representing observations. We pre-train these task-agnostic representations and prototypes on environments without downstream task information. This enables state-of-the-art downstream policy learning on a set of difficult continuous control tasks.

研究の動機と目的

強化学習における探索を強化するために、教師なしのプロトタイプ表現の使用を動機づける。
連続表現と離散プロトタイプを活用するモデルフリーアルゴリズムを開発する。
BYOLとSwAVの自己教師付き学習のアイデアをRL設定へ適用する。
エントロピー推定と探索の安定性に対するプロトタイプの影響を分析する。

提案手法

BYOLと同様に予測器とターゲットネットワークを用い、ターゲットは指数移動平均で更新する。
SwAVに類似した損失とターゲット生成手順を用いてプロトタイプの集合を学習する。
連続する観測を対比させ、非定常RLに適したデータ拡張を用いる。
プロトタイプ駆動の最近傍統計に基づくエントロピー指標から派生した内部報酬を計算する。
表現学習とRL目的を分離するため、探索RLエージェントの勾配を停止しておく。

実験結果

リサーチクエスチョン

RQ1連続表現とプロトタイプ的離散構造を同時に学習することは、RLにおける探索とポリシー性能を改善するか？
RQ2プロトタイプベースのエントロピー推定は探索の安定性とサンプル効率にどう影響するか？
RQ3BYOL/SwAVに触発された自己教師付き目的は、非定常RL設定に効果的に適用できるか？
RQ4Proto-RLの性能における事前学習状態エントロピーと内部報酬の役割は何か？

主な発見

Proto-RLは連続表現と離散プロトタイプを組み合わせて探索を改善する。
プロトタイプ駆動のエントロピー推定は、ランダムバッチと比較して内部報酬の分散を低減する。
特定の成分の勾配を停止することは、表現学習とRL目的を分離するのに役立つ。
内部報酬はProto-RLの下流探索を加速させる。
このアプローチは、事前トレーニングを必要とせず、BYOLとSwAVのアイデアをRLに統合している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。