[論文レビュー] Data-Efficient Reinforcement Learning with Self-Predictive Representations
SPRは強力なRLエージェントに自己教師付きの潜在空間未来予測とデータ拡張を追加してサンプル効率を向上させ、Atari 100kで最先端の結果を達成し、いくつかのゲームで人間のスコアを上回る。
L'efficacité des données reste un défi majeur dans l'apprentissage par renforcement profond. Bien que les techniques modernes soient capables d'atteindre des performances élevées dans des tâches extrêmement complexes, y compris les jeux de stratégie comme le StarCraft, les échecs, le shogi et le go, ainsi que dans des domaines visuels exigeants comme les jeux Atari, cela nécessite généralement d'énormes quantités de données interactives, limitant ainsi l'application pratique de l'apprentissage par renforcement. Dans ce mémoire, nous proposons la SPR, une méthode inspirée des récentes avancées en apprentissage auto-supervisé de représentations, conçue pour améliorer l'efficacité des données des agents d'apprentissage par renforcement profond. Nous évaluons cette méthode sur l'environement d'apprentissage Atari, et nous montrons qu'elle améliore considérablement les performances des agents avec un surcroît de calcul modéré. Lorsqu'on lui accorde à peu près le même temps d'apprentissage qu'aux testeurs humains, un agent d'apprentissage par renforcement augmenté de SPR atteint des performances surhumaines dans 7 des 26 jeux, une augmentation de 350% par rapport à l'état de l'art précédent, tout en améliorant fortement les performances moyennes et médianes. Nous évaluons également cette méthode sur un ensemble de tâches de contrôle continu, montrant des améliorations substantielles par rapport aux méthodes précédentes. Le chapitre 1 présente les concepts nécessaires à la compréhension du travail présenté, y compris des aperçus de l'apprentissage par renforcement profond et de l'apprentissage auto-supervisé de représentations. Le chapitre 2 contient une description détaillée de nos contributions à l'exploitation de l'apprentissage de représentation auto-supervisé pour améliorer l'efficacité des données dans l'apprentissage par renforcement. Le chapitre 3 présente quelques conclusions tirées de ces travaux, y compris des propositions pour les travaux futurs.
研究の動機と目的
- 環境との相互作用が限られている場合のデータ効率の良いRLを動機づける。
- 視覚入力の構造と時系列ダイナミクスに基づく自己教師付き目標を活用する。
- 将来の潜在状態を予測する表現を学ぶ。
- 観測の拡張ビュー間で表現の一貫性を強制する。
- SPRを強力なRLエージェントと統合してピクセルベースのタスクの性能を向上させる。
提案手法
- オンラインエンコーダ f_o を用いて観測 s_t から表現 z_t を生成する。
- オンラインエンコーダのパラメータの指数移動平均(EMA)であるターゲットエンコーダ f_m を維持する。
- 過去の潜在状態と行動から将来の潜在表現を予測する遷移モデル h を導入する。
- 表現をコサイン類似度SPR損失の空間へ写像する投影ヘッド g_o, g_m と予測子 q を適用する。
- 予測投影とターゲット投影の間のコサイン類似度の負を、K 個の将来ステップに渡ってSPR損失として計算する。
- SPR 損失を Rainbow RL 損失と組み合わせる:L_total = L_RL + lambda * L_SPR。
実験結果
リサーチクエスチョン
- RQ1自己予測表現は Atari 100k のレジームでデータ効率を高めますか?
- RQ2データ拡張は SPR 表現の品質と RL の性能にどう影響しますか?
- RQ3異なる将来予測深さ K が SPR の性能に与える影響は何ですか?
- RQ4表現崩壊を防ぎ良好な性能を得るためのターゲットエンコーダ(EMA)の重要性はどれくらいですか?
主な発見
| ランダム | 人間 | SimPLe | DER | OTRainbow | CURL | DrQ | SPR(拡張なし) | SPR |
|---|---|---|---|---|---|---|---|---|
| 0.000 | 1.000 | 0.443 | 0.285 | 0.264 | 0.381 | 0.357 | 0.463 | 0.704 |
| 0.000 | 1.000 | 0.144 | 0.161 | 0.204 | 0.175 | 0.268 | 0.307 | 0.415 |
| 0.000 | 23.382 | 0.232 | 0.239 | 0.197 | 0.325 | 0.171 | 0.336 | 0.510 |
| 0.000 | 0.994 | 0.118 | 0.142 | 0.103 | 0.142 | 0.131 | 0.225 | 0.361 |
| 0 | N/A | 2 | 2 | 1 | 2 | 2 | 5 | 7 |
- データ拡張を用いたSPRは Atari 100k で中央値の人間正規化スコア 0.415 を達成し、新しい最先端となった。
- 拡張なしのSPRも従来手法を上回り、予測潜在表現目的の価値を示している。
- SPRは26ゲーム中7ゲームで専門家レベルの人間スコアを超え、データ効率の高い堅牢な性能を示している。
- 最良の性能にはEMA (tau) を持つ別個のターゲットエンコーダが不可欠であり;この設定では augmentation 有りで tau = 0 が最良である。
- 予測深さを K = 5 まで増やすとゲーム全体で性能が向上し、より大きな K ではリターンは頭打ちになる。
- 投影ヘッドと予測ヘッドは重要であり、それらを取り除くと投影された潜在表現を用いる場合と比較して性能が低下する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。