QUICK REVIEW

[論文レビュー] CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Aravind Srinivas, Michael Laskin|arXiv (Cornell University)|Apr 8, 2020

Reinforcement Learning in Robotics参考文献 50被引用数 215

ひとこと要約

CURL は contrastive self-supervised 表現学習と off-policy 強化学習を組み合わせ、ピクセル観測から学習し、データ効率を大幅に向上させ、DMControl で状態ベースの SAC の性能に近づき、Atari で 100k ステップ時にいくつかのピクセルベースのベースラインを上回る。

ABSTRACT

We present CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extracts high-level features from raw pixels using contrastive learning and performs off-policy control on top of the extracted features. CURL outperforms prior pixel-based methods, both model-based and model-free, on complex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and 1.2x performance gains at the 100K environment and interaction steps benchmarks respectively. On the DeepMind Control Suite, CURL is the first image-based algorithm to nearly match the sample-efficiency of methods that use state-based features. Our code is open-sourced and available at https://github.com/MishaLaskin/curl.

研究の動機と目的

高次元ピクセル観測から効果的な表現を学習し、RL のデータ効率を改善する動機付け
モデルフリー RL に教師なし表現学習を補助する contrastive 学習フレームワーク CURL を提案する
CURL のデータ効率と性能の優位性を DMControl および Atari のベンチマークで示す
対比目標を RL へ単純に、再現性のある統合が複雑なアーキテクチャ変更なしで substantial gains をもたらすことを示す

提案手法

フレームのスタックに対するインスタンス識別を用いた contrastive 学習で潜在表現を学習する
ターゲット表現のモメンタムエンコーダを用いて MoCo スタイルのネガティブサンプル辞書を形成する
クエリとキーの埋め込み間の二線形類似度 q^T W k を用いた InfoNCE 風の損失を最適化する
contrastive Objective をオフポリシー RL アルゴリズム（DMControl は SAC、Atari は Rainbow DQN）と統合し、エンコーダを RL objectives と共に学習する
フレームスタック全体に対してランダムクロップデータ拡張を適用してクエリ-キーペアを生成しつつ時系列構造を保持する
再現性を保ちつつ過剰なハイパーパラメータを避けるため、アーキテクチャ変更を最小限に留める

実験結果

リサーチクエスチョン

RQ1ピクセル入力に対する contrastive self-supervised 学習はピクセルからの RL のサンプル効率を改善できるか
RQ2CURL は標準ベンチマークで状態ベースの手法のデータ効率に近づけるか
RQ3DMControl および Atari の固定ステップ予算で以前のピクセルベースのベースラインと比較して Curl はどうなるか
RQ4CURL の性能に最も影響を与える設計選択（拡張、類似度測度、モメンタムエンコーディング）は何か

主な発見

環境	CURL (500k)	PlaNet	Dreamer	SAC+AE	SLACv1	Pixel SAC	State SAC
指、回転	926 ± 45	561 ± 284	796 ± 183	884 ± 128	673 ± 92	179 ± 166	923 ± 21
カートポール、スイングアップ	841 ± 45	475 ± 71	762 ± 27	735 ± 63	-	419 ± 40	848 ± 15
リーチャー、イージー	929 ± 44	210 ± 390	793 ± 164	627 ± 58	-	145 ± 30	923 ± 24
チーター、走る	518 ± 28	305 ± 131	570 ± 253	550 ± 34	640 ± 19	197 ± 15	795 ± 30
ウォーカー、歩行	902 ± 43	351 ± 58	897 ± 49	847 ± 48	842 ± 51	42 ± 12	948 ± 54
カップ内のボール、キャッチ	959 ± 27	460 ± 380	879 ± 87	794 ± 58	852 ± 71	312 ± 63	974 ± 33

CURL は 100k ステップ時に DMControl 環境で Dreamer より 1.9x の中央値パフォーマンスを達成
CURL は Atari で 100k 介入ステップ時に prior methods より 1.2x の中央値パフォーマンスを達成
DMControl では CURL が多くの環境で画像ベースのアルゴリズムとして初めて状態ベースの SAC のサンプル効率にほぼ匹敵
CURL は複雑なタスクに対して DMControl および Atari のベンチマークで prior ピクセルベース手法（モデルベース・モデルフリー）より上回る
提案された単純な対比目的と最小限のアーキテクチャ変更により、世界モデルや再構成目的を必要とせずに substantial data-efficiency gains を提供

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。