[論文レビュー] CURL: Contrastive Unsupervised Representations for Reinforcement Learning
CURL は contrastive self-supervised 表現学習と off-policy 強化学習を組み合わせ、ピクセル観測から学習し、データ効率を大幅に向上させ、DMControl で状態ベースの SAC の性能に近づき、Atari で 100k ステップ時にいくつかのピクセルベースのベースラインを上回る。
We present CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extracts high-level features from raw pixels using contrastive learning and performs off-policy control on top of the extracted features. CURL outperforms prior pixel-based methods, both model-based and model-free, on complex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and 1.2x performance gains at the 100K environment and interaction steps benchmarks respectively. On the DeepMind Control Suite, CURL is the first image-based algorithm to nearly match the sample-efficiency of methods that use state-based features. Our code is open-sourced and available at https://github.com/MishaLaskin/curl.
研究の動機と目的
- 高次元ピクセル観測から効果的な表現を学習し、RL のデータ効率を改善する動機付け
- モデルフリー RL に教師なし表現学習を補助する contrastive 学習フレームワーク CURL を提案する
- CURL のデータ効率と性能の優位性を DMControl および Atari のベンチマークで示す
- 対比目標を RL へ単純に、再現性のある統合が複雑なアーキテクチャ変更なしで substantial gains をもたらすことを示す
提案手法
- フレームのスタックに対するインスタンス識別を用いた contrastive 学習で潜在表現を学習する
- ターゲット表現のモメンタムエンコーダを用いて MoCo スタイルのネガティブサンプル辞書を形成する
- クエリとキーの埋め込み間の二線形類似度 q^T W k を用いた InfoNCE 風の損失を最適化する
- contrastive Objective をオフポリシー RL アルゴリズム(DMControl は SAC、Atari は Rainbow DQN)と統合し、エンコーダを RL objectives と共に学習する
- フレームスタック全体に対してランダムクロップデータ拡張を適用してクエリ-キーペアを生成しつつ時系列構造を保持する
- 再現性を保ちつつ過剰なハイパーパラメータを避けるため、アーキテクチャ変更を最小限に留める
実験結果
リサーチクエスチョン
- RQ1ピクセル入力に対する contrastive self-supervised 学習はピクセルからの RL のサンプル効率を改善できるか
- RQ2CURL は標準ベンチマークで状態ベースの手法のデータ効率に近づけるか
- RQ3DMControl および Atari の固定ステップ予算で以前のピクセルベースのベースラインと比較して Curl はどうなるか
- RQ4CURL の性能に最も影響を与える設計選択(拡張、類似度測度、モメンタムエンコーディング)は何か
主な発見
| 環境 | CURL (500k) | PlaNet | Dreamer | SAC+AE | SLACv1 | Pixel SAC | State SAC |
|---|---|---|---|---|---|---|---|
| 指、回転 | 926 ± 45 | 561 ± 284 | 796 ± 183 | 884 ± 128 | 673 ± 92 | 179 ± 166 | 923 ± 21 |
| カートポール、スイングアップ | 841 ± 45 | 475 ± 71 | 762 ± 27 | 735 ± 63 | - | 419 ± 40 | 848 ± 15 |
| リーチャー、イージー | 929 ± 44 | 210 ± 390 | 793 ± 164 | 627 ± 58 | - | 145 ± 30 | 923 ± 24 |
| チーター、走る | 518 ± 28 | 305 ± 131 | 570 ± 253 | 550 ± 34 | 640 ± 19 | 197 ± 15 | 795 ± 30 |
| ウォーカー、歩行 | 902 ± 43 | 351 ± 58 | 897 ± 49 | 847 ± 48 | 842 ± 51 | 42 ± 12 | 948 ± 54 |
| カップ内のボール、キャッチ | 959 ± 27 | 460 ± 380 | 879 ± 87 | 794 ± 58 | 852 ± 71 | 312 ± 63 | 974 ± 33 |
- CURL は 100k ステップ時に DMControl 環境で Dreamer より 1.9x の中央値パフォーマンスを達成
- CURL は Atari で 100k 介入ステップ時に prior methods より 1.2x の中央値パフォーマンスを達成
- DMControl では CURL が多くの環境で画像ベースのアルゴリズムとして初めて状態ベースの SAC のサンプル効率にほぼ匹敵
- CURL は複雑なタスクに対して DMControl および Atari のベンチマークで prior ピクセルベース手法(モデルベース・モデルフリー)より上回る
- 提案された単純な対比目的と最小限のアーキテクチャ変更により、世界モデルや再構成目的を必要とせずに substantial data-efficiency gains を提供
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。