[論文レビュー] Mastering Atari Games with Limited Data
EfficientZero は MuZero を基盤とするモデルベースの視覚的強化学習法で、自己教師付きの一貫性、エンドツーエンドの値プレフィックス予測、オフポリシー値補正を用いることにより、実 Gameplay のわずか 2 時間で Atari 100k において人間超越の性能を達成します。
Reinforcement learning has achieved great success in many applications. However, sample efficiency remains a key challenge, with prominent methods requiring millions (or even billions) of environment steps to train. Recently, there has been significant progress in sample efficient image-based RL algorithms; however, consistent human-level performance on the Atari game benchmark remains an elusive goal. We propose a sample efficient model-based visual RL algorithm built on MuZero, which we name EfficientZero. Our method achieves 194.3% mean human performance and 109.0% median performance on the Atari 100k benchmark with only two hours of real-time game experience and outperforms the state SAC in some tasks on the DMControl 100k benchmark. This is the first time an algorithm achieves super-human performance on Atari games with such little data. EfficientZero's performance is also close to DQN's performance at 200 million frames while we consume 500 times less data. EfficientZero's low sample complexity and high performance can bring RL closer to real-world applicability. We implement our algorithm in an easy-to-understand manner and it is available at https://github.com/YeWR/EfficientZero. We hope it will accelerate the research of MCTS-based RL algorithms in the wider community.
研究の動機と目的
- 画像ベースの RL における高いサンプル効率の必要性を動機づける。特に限られた相互作用で実現する現実世界のタスクに対して。
- Atari 100k および DMControl 100k のベンチマークで高い性能を維持しつつデータ効率を向上させるモデルベースの RL 手法を開発する。
- 限られたデータのモデルベース RL における主要なボトルネック(モデル監督、状態エイリアシング、オフポリシーの価値ターゲット)を特定し対処する。
- これらのボトルネックを克服するためのアーキテクチャ上および学習上の革新を提案し、既存手法に対する実証的な利得を示す。
提案手法
- MuZero を基盤にした EfficientZero を導入し、3 つの主要な改変を行う:堅牢な環境モデルを学習する自己監督的時系列的一貫性、累積誤差を緩和するための値プレフィックスのエンドツーエンド予測、ターゲットを現在の方策と一致させるモデルベースのオフポリシー補正。
- 学習された遷移の後に隣接する観測間で SimSiam に基づく自己監督的一貫性損失を用い、ダイナミクスを 5 ステップ展開して監督する。
- 長期的な価値推定を安定化させるため、展開された潜在状態の系列を入力として受け取る LSTM で値プレフィックスを予測する。
- 古い軌跡から短期的な報酬を再想像し、対応する状態から再度 MCTS を実行して補正済みの根値を得るオフポリシー補正を適用する。
- MuZero のコアコンポーネント(表現、ダイナミクス、報酬、価値、ポリシーヘッド)を保持しつつ、追加の監督信号と補正メカニズムで訓練する。
- Atari 100k(26ゲーム)および DMControl 100k(低次元タスク)でサンプル効率と性能を評価する。
実験結果
リサーチクエスチョン
- RQ1モデルベースで MCTS 主導の RL アルゴリズムが、環境ステップ数 100k(約 2 時間のプレイ)だけで Atari で人間超越の性能を達成できるか?
- RQ2自己監督的時系列的一貫性、エンドツーエンドの値プレフィックス予測、およびモデルベースのオフポリシー補正は、画像ベースの RL におけるデータ効率と性能を意味あるまで改善するか?
- RQ3EfficientZero は Atari 100k および DMControl 100k ベンチマークにおける最先端のデータ効率ベースラインとどのように比較されるか?
- RQ4限られたデータ条件下で、どのコンポーネント(一貫性、値プレフィックス、オフポリシー補正)が改善に最も寄与するか?
主な発見
| ゲーム | Random | Human | SimPLe | OTRainbow | CURL | DrQ | SPR | MuZero | EfficientZero |
|---|---|---|---|---|---|---|---|---|---|
| Alien | 227.8 | 7127.7 | 616.9 | 824.7 | 558.2 | 771.2 | 801.5 | 530.0 | 808.5 |
| Amidar | 5.8 | 1719.5 | 88.0 | 82.8 | 142.1 | 102.8 | 176.3 | 38.8 | 148.6 |
| Assault | 222.4 | 742.0 | 527.2 | 351.9 | 600.6 | 452.4 | 571.0 | 500.1 | 1263.1 |
| Asterix | 210.0 | 8503.3 | 1128.3 | 628.5 | 734.5 | 603.5 | 977.8 | 1734.0 | 25557.8 |
| Bank Heist | 14.2 | 753.1 | 34.2 | 182.1 | 131.6 | 168.9 | 380.9 | 192.5 | 351.0 |
| BattleZone | 2360.0 | 37187.5 | 5184.4 | 4060.6 | 14870.0 | 12954.0 | 16651.0 | 7687.5 | 13871.2 |
| Boxing | 0.1 | 12.1 | 9.1 | 2.5 | 1.2 | 6.0 | 35.8 | 15.1 | 52.7 |
| ChopperCmd | 811.0 | 7387.8 | 1246.9 | 1033.3 | 1058.5 | 780.3 | 974.8 | 1350.0 | 1117.3 |
| Crazy Climber | 10780.5 | 35829.4 | 62583.6 | 21327.8 | 12146.5 | 20516.5 | 42923.6 | 56937.0 | 83940.2 |
| Demon Attack | 152.1 | 1971.0 | 208.1 | 711.8 | 817.6 | 1113.4 | 545.2 | 3527.0 | 13003.9 |
| Freeway | 0.0 | 29.6 | 20.3 | 25.0 | 26.7 | 9.8 | 24.4 | 21.8 | 21.8 |
| Frostbite | 65.2 | 4334.7 | 254.7 | 231.6 | 1181.3 | 331.1 | 1821.5 | 255.0 | 296.3 |
| Gopher | 257.6 | 2412.5 | 771.0 | 778.0 | 669.3 | 636.3 | 715.2 | 1256.0 | 3260.3 |
| Hero | 1027.0 | 30826.4 | 2656.6 | 6458.8 | 6279.3 | 3736.3 | 7019.2 | 3095.0 | 9315.9 |
| Jamesbond | 29.0 | 302.8 | 125.3 | 112.3 | 471.0 | 236.0 | 365.4 | 87.5 | 517.0 |
| Kangaroo | 52.0 | 3035.0 | 323.1 | 605.4 | 872.5 | 940.6 | 3276.4 | 62.5 | 724.1 |
| Krull | 1598.0 | 2665.5 | 4539.9 | 3277.9 | 4229.6 | 4018.1 | 3688.9 | 4890.8 | 5663.3 |
| Kung Fu Master | 258.5 | 22736.3 | 17257.2 | 5722.2 | 14307.8 | 9111.0 | 13192.7 | 18813.0 | 30944.8 |
| Ms Pacman | 307.3 | 6951.6 | 1480.0 | 941.9 | 1465.5 | 960.5 | 1313.2 | 1265.6 | 1281.2 |
| Pong | -20.7 | 14.6 | 12.8 | 1.3 | -16.5 | -8.5 | -5.9 | -6.7 | 20.1 |
| Private Eye | 24.9 | 69571.3 | 58.3 | 100.0 | 218.4 | -13.6 | 124.0 | 56.3 | 96.7 |
| Qbert | 163.9 | 13455.0 | 1288.8 | 509.3 | 1042.4 | 854.4 | 669.1 | 3952.0 | 13781.9 |
| Road Runner | 11.5 | 7845.0 | 5640.6 | 2696.7 | 5661.0 | 8895.1 | 14220.5 | 2500.0 | 17751.3 |
| Seaquest | 68.4 | 42054.7 | 683.3 | 286.9 | 384.5 | 301.2 | 583.1 | 208.0 | 1100.2 |
| Up N Down | 533.4 | 11693.2 | 3350.3 | 2847.6 | 2955.2 | 3180.8 | 28138.5 | 2896.9 | 17264.2 |
- EfficientZero は Atari 100k で平均 194.3%、中央値 109.0% の人間正規化性能を、実時間プレイ 2 時間のみで達成する。
- 26 該当の Atari ゲーム全体で、EfficientZero は平均で前回の SoTA (SPR) を 170%、中央値で 180% 上回る。
- Atari 100k では、EfficientZero はいくつかのゲームで従来の最先端手法を上回り、平均および中央値の指標で人間超越の性能を達成する。
- DMControl 100k では EfficientZero は最先端の結果を達成し、真の状態を用いる SAC ベースラインと同等またはそれを上回る。
- アブレーション実験は、提案3コンポーネントのいずれかを除くと性能が低下することを示し、自己監督的一貫性が最大の低下を招き、データ制限設定におけるその重要な役割を裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。