[論文レビュー] Data-Efficient Reinforcement Learning with Self-Predictive\n Representations
SPRは強力な強化学習エージェントを潜在空間での自己監視未来予測とデータ拡張で強化し、100kステップでデータ効率の高いAtariの最先端性能を達成し、いくつかのゲームで人間のスコアを上回ります。
While deep reinforcement learning excels at solving tasks where large amounts\nof data can be collected through virtually unlimited interaction with the\nenvironment, learning from limited interaction remains a key challenge. We\nposit that an agent can learn more efficiently if we augment reward\nmaximization with self-supervised objectives based on structure in its visual\ninput and sequential interaction with the environment. Our method,\nSelf-Predictive Representations(SPR), trains an agent to predict its own latent\nstate representations multiple steps into the future. We compute target\nrepresentations for future states using an encoder which is an exponential\nmoving average of the agent's parameters and we make predictions using a\nlearned transition model. On its own, this future prediction objective\noutperforms prior methods for sample-efficient deep RL from pixels. We further\nimprove performance by adding data augmentation to the future prediction loss,\nwhich forces the agent's representations to be consistent across multiple views\nof an observation. Our full self-supervised objective, which combines future\nprediction and data augmentation, achieves a median human-normalized score of\n0.415 on Atari in a setting limited to 100k steps of environment interaction,\nwhich represents a 55% relative improvement over the previous state-of-the-art.\nNotably, even in this limited data regime, SPR exceeds expert human scores on 7\nout of 26 games. The code associated with this work is available at\nhttps://github.com/mila-iqia/spr\n
研究の動機と目的
- ピクセルからのデータが限られた状況で深層強化学習のサンプル効率を改善する。
- 視覚入力の構造と時間的ダイナミクスに基づく自己監視目的を活用する。
- EMAターゲットとアクション条件付き遷移を用いた未来表現を予測する潜在空間ダイナミクスモデルを開発する。
- SPRをAtari 100kで評価し、データ不足下での性能と頑健性の改善を示す。
提案手法
- Rainbow DQNと自己監視SPR損失を組み合わせる。
- オンラインエンコーダを用いて現在の潜在表現を生成し、オンラインのEMAであるターゲットエンコーダを未来のターゲットとして使用する。
- 潜在空間で遷移モデルを用いてアクションに条件づけられた未来の表現を予測する。
- オンラインとターゲットの表現を小さな射影ヘッドを通して射影し、予測射影とターゲット射影のコサイン類似度損失を適用する。
- 結合目的関数を用いて学習する:L_total = L_RL + lambda * L_SPR、ここで L_SPR はK個の未来ステップにわたるコサイン類似度を合計する。
- オプションとしてデータ拡張を用いて観察を増強し、拡張された観察間のビュー整合性を強制する。
実験結果
リサーチクエスチョン
- RQ1自己予測的な潜在空間目的を統合することは、ピクセルベースのRLのデータ効率を改善するか。
- RQ2ターゲットエンコーダとEMAが表現の安定性と性能に与える影響は何か。
- RQ3潜在予測を複数ステップ(K>1)とすることは、Atari 100k設定で性能と計算量にどう影響するか。
- RQ4SPR目的におけるデータ拡張はRLにとってどのような役割を果たすか。
主な発見
- データ拡張を用いたSPRはAtari 100kでデータ中央値を人間正規化スコアの最先端に達します。
- 拡張なしでもSPRは従来手法を上回り、拡張を使うと大きく上回ります。
- 別個のターゲットエンコーダ(EMA)の使用は性能にとって重要であり、拡張がオンの場合はtau = 0、そうでない場合は tau = 0.99 が最良の結果となる。
- 潜在ダイナミクスの多ステップモデル化(最大K=5)は一貫して性能を向上させるが、それ以降は利得が縮小する。
- SPRはこの設定で時間依存的対比学習法(CURLなど)を上回る。
- 射影と予測子の使用は重要であり、これらを除くと性能が低下する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。