Skip to main content
QUICK REVIEW

[論文レビュー] Model-Based Reinforcement Learning for Atari

Łukasz Kaiser, Mohammad Babaeizadeh|arXiv (Cornell University)|Mar 1, 2019
Reinforcement Learning in Robotics参考文献 47被引用数 420
ひとこと要約

SimPLe は学習された確率的動画予測世界モデルを用いてポリシーを訓練し、シミュレートされた Atari 環境内で100Kの相互作用で高いサンプル効率を達成し、Rainbow や PPO のようなモデルフリーベースラインをしばしば上回る。

ABSTRACT

Model-free reinforcement learning (RL) can be used to learn effective policies for complex tasks, such as Atari games, even from image observations. However, this typically requires very large amounts of interaction -- substantially more, in fact, than a human would need to learn the same games. How can people learn so quickly? Part of the answer may be that people can learn how the game works and predict which actions will lead to desirable outcomes. In this paper, we explore how video prediction models can similarly enable agents to solve Atari games with fewer interactions than model-free methods. We describe Simulated Policy Learning (SimPLe), a complete model-based deep RL algorithm based on video prediction models and present a comparison of several model architectures, including a novel architecture that yields the best results in our setting. Our experiments evaluate SimPLe on a range of Atari games in low data regime of 100k interactions between the agent and the environment, which corresponds to two hours of real-time play. In most games SimPLe outperforms state-of-the-art model-free algorithms, in some games by over an order of magnitude.

研究の動機と目的

  • ピクセル観測からの Atari プレイのサンプル複雑性を低減する。
  • 完全なモデルベースRLループを実証する(世界モデルを学習し、モデル内でポリシーを訓練し、実データで反復する)。
  • 固定された100K相互作用予算で、最先端のモデルフリーのベースラインと比較する。

提案手法

  • Simulated Policy Learning (SimPLe) を導入し、現実データの収集、世界モデルの訓練、世界モデル内での PPO によるポリシー訓練を交互に行う。
  • 行動に条件づけられた次フレームと報酬を予測する、離散潜在変数を持つ確率的動画予測世界モデルを使用。
  • 予測誤差の連鎖を緩和するためのスケジュールサンプリングと、学習済みモデル内の計画中の誤差蓄積を抑えるための短いロールアウトを採用。
  • 現実データからの教師あり学習と予測モデリングを組み合わせて世界モデルを訓練し、安定性のためにクリッピング損失を用いる。
  • 反復をまたいでデータを集約する(データセット集約)ことで世界モデルの環境ダイナミクスの網羅を拡張。
  • 26のAtariゲームに渡る100Kの実環境相互作用で性能を評価し、RainbowとPPOと比較。

実験結果

リサーチクエスチョン

  • RQ1固定された低相互作用予算(100K)で、学習済みの動画予測モデルがAtariで効果的なポリシー学習を可能にするか。
  • RQ2確率的離散潜在ダイナミクスを持つモデルベース学習は、サンプル効率において高度なモデルフリーのベースライン(Rainbow, PPO)とどう比較されるか。
  • RQ3確率性、ロールアウト長、反復データ収集が、学習済み世界モデルのポリシー性能に与える影響は何か。
  • RQ4SimPLeデータでの事前学習または初期化は、後のモデルフリーのファインチューニングに利点を提供するか。

主な発見

  • SimPLeは、100K相互作用でほとんどのテストゲームにおいて、非常にチューニングされたRainbowベースラインよりサンプル効率が高い。
  • 最良ケース(Freeway)では、SimPLeはRainbowより10倍以上サンプル効率が高い。
  • 26ゲーム中、SimPLeは半数超のゲームでモデルフリー法を上回り、いくつかの結果は人間のスコアを超えている。
  • いくつかのゲームでは、Rainbow/PM PPOは100KでSimPLeと同じスコアを達成するのに2倍を超えるサンプルを必要とする。
  • この手法は多くの設定でモデルフリー手法と競合する性能を達成し、サンプル効率においてPPOに近づくか超えることがある。
  • 結果はゲームごとに5回の実験の平均として報告され、実行間で顕著なばらつきがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。