Skip to main content
QUICK REVIEW

[論文レビュー] Large-Scale Study of Curiosity-Driven Learning

Yuri Burda, Harri Edwards|arXiv (Cornell University)|Aug 13, 2018
Psychological and Educational Research Studies参考文献 41被引用数 364
ひとこと要約

本研究は、外部報酬を用いず intrinsic curiosity のみを動機とした大規模実証研究を54環境で実施し、前方ダイナミクスの機能空間を比較することで予測誤差に基づく好奇心の長所と限界を明らかにする。

ABSTRACT

Reinforcement learning algorithms rely on carefully engineering environment rewards that are extrinsic to the agent. However, annotating each environment with hand-designed, dense rewards is not scalable, motivating the need for developing reward functions that are intrinsic to the agent. Curiosity is a type of intrinsic reward function which uses prediction error as reward signal. In this paper: (a) We perform the first large-scale study of purely curiosity-driven learning, i.e. without any extrinsic rewards, across 54 standard benchmark environments, including the Atari game suite. Our results show surprisingly good performance, and a high degree of alignment between the intrinsic curiosity objective and the hand-designed extrinsic rewards of many game environments. (b) We investigate the effect of using different feature spaces for computing prediction error and show that random features are sufficient for many popular RL game benchmarks, but learned features appear to generalize better (e.g. to novel game levels in Super Mario Bros.). (c) We demonstrate limitations of the prediction-based rewards in stochastic setups. Game-play videos and code are at https://pathak22.github.io/large-scale-curiosity/

研究の動機と目的

  • 強化学習における手設計された外部報酬に代わるスケーラブルな手段として intrinsic curiosity を動機付けとして用いる。
  • Atari、 Mario、3Dナビゲーションを含む54環境で好奇心主導の学習を体系的に study する。
  • forward dynamics の異なる特徴空間が好奇心ベースの探索に与える影響を評価する。
  • extrinsic rewards なしで好奇心主導エージェントのスケーラビリティ、安定性、一般化を評価する。

提案手法

  • 前方ダイナミクスから導出される surprisal として r_t = -log p(phi(x_{t+1}) | x_t, a_t) を用いた dynamics ベースの intrinsic reward を用いる。
  • 観測の埋め込み phi の特徴空間を比較する:Raw Pixels、Random Features、Inverse Dynamics Features (IDF)、Variational Autoencoders (VAE)。
  • PPO を報酬とアドバンテージの正規化、観測の正規化、多数の並列アクター、および特徴バッチ正規化で安定化させて適用する。
  • 終端信号を取り除き、無限地平線の純粋な好奇心主導の探索を研究する。
  • 54環境(Atari、Mario、Roboschool、Unity)で評価し、新規レベルへの一般化を分析する。

実験結果

リサーチクエスチョン

  • RQ1純粋な好奇心駆動エージェントは、外部報酬なしで多様な環境において意味のある行動を学べるか。
  • RQ2観測埋め込み戦略の異なる効果(RF、VAE、IDF、Pixels)は好奇心主導の探索と一般化にどのように影響するか。
  • RQ3人間が設計した環境で好奇心ベースの探索は外部報酬と整合するか、確率的な設定における限界は何か。
  • RQ4好奇心を通じて学習したスキルは追加報酬なしに新規レベルや環境へ転移可能か。

主な発見

  • 好奇心主導のエージェントは、多くの Atari ゲームで外部トレーニング報酬なしに外部報酬を獲得できる。
  • ランダム特徴は多くのベンチマークで好奇心のための単純で安定した埋め込みを提供することが多く、学習済み特徴は新規レベル(例: Mario)への一般化がより良い。
  • Inverse dynamics features は Random features よりも約 55% の Atari ゲームで優れており、一方 Raw Pixels は forward dynamics に対しては厳しい性能。
  • Mario ではバッチサイズを増やす(128 から 2048 並列スレッドへ)と探索性能とレベル発見が大幅に向上する。
  • 好奇心は報酬が希薄なタスクや終端報酬のタスクで役立ち、外部報酬のみの学習が進まない場合の性能を改善する。
  • 確率的な性質(ノイズ TV) が好奇心を誤誘導し、学習を遅らせることがあるが、いくつかのケースでは最終的に外部報酬の獲得を妨げるわけではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。