Skip to main content
QUICK REVIEW

[論文レビュー] Agent57: Outperforming the Atari Human Benchmark

Adrià Puigdomènech Badia, Bilal Piot|arXiv (Cornell University)|Mar 30, 2020
Reinforcement Learning in Robotics参考文献 47被引用数 143
ひとこと要約

Agent57 は、メタコントローラーを用いた適応的な探索・利用と長期クレジット割り当てのバランシングにより、57 Atari 全ゲームで人間ベンチマークを超える最初の深層強化学習エージェントです。

ABSTRACT

Atari games have been a long-standing benchmark in the reinforcement learning (RL) community for the past decade. This benchmark was proposed to test general competency of RL algorithms. Previous work has achieved good average performance by doing outstandingly well on many games of the set, but very poorly in several of the most challenging games. We propose Agent57, the first deep RL agent that outperforms the standard human benchmark on all 57 Atari games. To achieve this result, we train a neural network which parameterizes a family of policies ranging from very exploratory to purely exploitative. We propose an adaptive mechanism to choose which policy to prioritize throughout the training process. Additionally, we utilize a novel parameterization of the architecture that allows for more consistent and stable learning.

研究の動機と目的

  • すべてのゲームで人間ベンチマークを超える汎用的な Atari 57 エージェントを示す。
  • NGU に対して探索と長期クレジット割り当てを改善し、均一な性能を達成する。
  • 多様なゲーム全体で学習を安定化させるアーキテクチャと訓練メカニズムを導入する。
  • 適応的な方策選択と長いバックプロパゲーションが学習安定性と最終性能を改善することを示す。

提案手法

  • Q 値を外的・内的成分に分解する:Q(x,a,j;θ)=Q(x,a,j;θ^e)+β_j Q(x,a,j;θ^i)。
  • transformed Retrace 損失を用いて内的・外的価値ネットワークを別々に訓練する。
  • エピソードごとにβ_j、γ_j のポリシー選択を適応させる非定常な多腕バンディットを用いたメタコントローラー(各アクターごと)を導入する。
  • セントラル優先リプレイバッファと複数のアクターを用いた分散型 RL 設定を採用する。
  • 長いバックプロパゲーション・ツー・タイム(例:160 対 80)ウィンドウを用いて長期クレジット割り当てを改善する。
  • CHNS/HNS 指標で全 57 Atari ゲームを評価し、ベースライン(R2D2、NGU、MuZero)と比較する。

実験結果

リサーチクエスチョン

  • RQ11 つのエージェントで 57 Atari ゲーム全ての人間正規化スコアを超えられるか?
  • RQ2 intrinsic と extrinsic の値関数を分離することで、学習安定性と diverse なゲームでの性能が向上するか?
  • RQ3 メタコントローラーが探索/利用ポリシーを適応的に選択して一般性と末尾の性能を高められるか?
  • RQ4 時間をまたいだバックプロパゲーションウィンドウを長くすることで、全体性能を犠牲にせず長期クレジット割り当てを改善できるか?

主な発見

StatisticsAgent57R2D2 (bandit)NGUR2D2 (Retrace)R2D2MuZero
Capped mean100.0096.9395.0794.2094.3389.92
Number of games > human575451525251
Mean4766.255461.663421.803518.364622.095661.84
Median1933.492357.921359.781457.631935.862381.51
40th Percentile1091.071298.80610.44817.771176.051172.90
30th Percentile614.65648.17267.10420.67529.23503.05
20th Percentile324.78303.61226.43267.25215.31171.39
10th Percentile184.35116.82107.78116.03115.3375.74
5th Percentile116.6793.2564.1048.3250.270.03
  • Agent57 は 57 試合で 100% キャップ付き人間正規化スコアを達成。
  • Agent57 は 57 試合すべてで人間ベンチマークを超え、末尾性能は複数の強力なベースラインより高い。
  • 別々の内的/外的価値ネットワークは内的報酬スケーリングへのロバスト性を高め、難易度の高い探索ゲームで性能を向上させる。
  • 適応的探索を可能にするメタコントローラーは NGU および R2D2 のベースラインで CHNS の大きな改善をもたらす。
  • より長いバックプロパゲーション・ツー・タイム・ウィンドウは学習安定性と最終性能を向上させ、特に Solaris で顕著。
  • 難易度の高い 10 試合サブセットでは、提案された各改善が最終的な 100% CHNS に寄与しており、全コンポーネントの必要性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。