[論文レビュー] CURL: Contrastive Unsupervised Representations for Reinforcement\n Learning
CURL は対照的自己監視表現学習をオフポリシー強化学習と結びつけ、ピクセル入力からのデータ効率を改善し、DMControl および Atari のベンチマークで従来のピクセルベース手法と比較して顕著な向上を達成する。
We present CURL: Contrastive Unsupervised Representations for Reinforcement\nLearning. CURL extracts high-level features from raw pixels using contrastive\nlearning and performs off-policy control on top of the extracted features. CURL\noutperforms prior pixel-based methods, both model-based and model-free, on\ncomplex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and\n1.2x performance gains at the 100K environment and interaction steps benchmarks\nrespectively. On the DeepMind Control Suite, CURL is the first image-based\nalgorithm to nearly match the sample-efficiency of methods that use state-based\nfeatures. Our code is open-sourced and available at\nhttps://github.com/MishaLaskin/curl.\n
研究の動機と目的
- 強化学習における高次元のピクセル入力からのデータ効率的な学習の必要性を動機づける。
- 重いアーキテクチャ変更を伴わず、RL と共同に表現を学習する、シンプルでプラグイン可能な対比学習フレームワークを提案する。
- DMControl および Atari タスクにおいて、従来のピクセルベース手法よりデータ効率と性能の向上を示す。
- 対照的な目的関数が、画像ベースの制御におけるサンプル効率で状態ベースの手法に匹敵することを示す。
提案手法
- 拡張されたフレームスタックを用いたインスタンス識別を利用し、対照損失(InfoNCE)を介して表現を学習する。
- モメンタム平均のターゲットエンコーダ(MoCo 風)と、対照スコアの二次形式の類似度(q^T W k)を用いる。
- クエリエンコーダの上にRLポリシー/値関数を訓練し、ターゲットエンコーダは勾配を流さずキーを提供する。
- フレームスタック全体にわたって単純なデータ拡張(ランダムクロップなど)を適用し、時間的構造を保ちながらクエリ-キー対を生成する。
- CURL を既存の RL アルゴリズム(DMControl にはSAC; Atari にはデータ効率の良い Rainbow)と、最小限の追加ハイパーパラメータで組み合わせる。
- 対照学習が世界モデルや再構成損失を必要とせず、サンプル効率を改善する補助タスクとして機能することを示す。

実験結果
リサーチクエスチョン
- RQ1単純な対照的自己-supervised 目的関数は、ピクセルベースの RL タスクにおいてデータ効率を改善するか?
- RQ2CURL は、DMControl および Atari で最先端のピクセルベース手法と比較して競争力のあるまたは上回るサンプル効率と性能を達成できるか?
- RQ3重いアーキテクチャ変更を伴わず、単純で再現性のあるパイプラインで対照学習をオフポリシーRLと統合することは可能か?
- RQ4モメンタムでエンコードされたキーと二次形式の類似度が、表現品質と下流の制御性能にどのように影響するか?
主な発見
- CURL は DMControl で 100k ステップ時に prior state-of-the-art より中央値で 1.9 倍の高い性能を達成。
- CURL は Atari で 100k ステップ時に prior methods より中央値で 1.2 倍の高い性能を達成。
- DMControl では、CURL が多くの環境で、画像ベースの手法として初めて状態ベースの SAC のサンプル効率にほぼ匹敵する。
- ピクセルベースのタスク全般で、CURL はモデルベース・モデルフリーのベースラインを大幅に上回るデータ効率の向上を示す。
- 著者らは CURL の単純さと再現性を強調し、複雑なアーキテクチャ変更や重い追加ハイパーパラメータを避ける。
- CURL はピクセル入力を用いた 16 の DMControl タスクと 26 の Atari ゲームで強力な実証的結果を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。