QUICK REVIEW

[論文レビュー] Exploration by Random Network Distillation

Yuri Burda, Harrison Edwards|arXiv (Cornell University)|Oct 30, 2018

Reinforcement Learning in Robotics参考文献 41被引用数 257

ひとこと要約

本論文は random network distillation (RND) と呼ばれる単純な内発的探索ボーナスを導入し、難しい Atari ゲームでの強力な探索を可能にすることを示し、デモンストレーションなしで Montezuma’s Revenge で最先端を達成する。さらに、内発的報酬と外発的報酬を統合して性能を向上させる方法を提案する。

ABSTRACT

We introduce an exploration bonus for deep reinforcement learning methods that is easy to implement and adds minimal overhead to the computation performed. The bonus is the error of a neural network predicting features of the observations given by a fixed randomly initialized neural network. We also introduce a method to flexibly combine intrinsic and extrinsic rewards. We find that the random network distillation (RND) bonus combined with this increased flexibility enables significant progress on several hard exploration Atari games. In particular we establish state of the art performance on Montezuma's Revenge, a game famously difficult for deep reinforcement learning methods. To the best of our knowledge, this is the first method that achieves better than average human performance on this game without using demonstrations or having access to the underlying state of the game, and occasionally completes the first level.

研究の動機と目的

深層強化学習における外的報酬が希薄または取得が難しい場合の探索を動機づける。
固定のランダムに初期化されたネットワークの出力を予測することに基づく、シンプルでスケーラブルな内発的報酬を提案する。
ポリシー最適化における内発的報酬と外発的報酬の柔軟な統合を可能にする。
Montezuma’s Revenge、Gravitar、Venture を含む困難な探索型 Atari ゲームでの有効性を示す。

提案手法

観測を k 次元埋め込み f(x) に写像する、固定でランダムに初期化されたターゲットネットワークを定義する。
ターゲット埋め込みへ平均二乗誤差を最小化するように予測器ネットワークを訓練する: E[||f_hat(x; θ_hat) - f(x)||^2].
予測器の予測誤差を内発的報酬 i_t として外発的報酬 e_t に加える: r_t = e_t + i_t.
学習を安定させるために内発的報酬を実行中の標準偏差で正規化し、観測をホワイトニングする。
内発的・外発的報酬を V_E と V_I の二つの値ヘッドで組み合わせ、異なる報酬ストリームとディスカウントに対応する。
パラレル環境の大規模な数で実験をスケールし、性能を評価する。
RND をダイナミクスベースの探索と PPO のベースラインと比較し、複数の難しい探索ゲームで有効性を確立する。

実験結果

リサーチクエスチョン

RQ1RND-based exploration ボーナスは、デモンストレーションや内部ゲーム状態へのアクセスを必要とせず、報酬が希薄な環境で探索を改善するのか。
RQ2RND を外発的報酬と組み合わせた場合の性能はどうか、内発的報酬と外発的報酬のために別々の値ヘッドを用いる利点はあるか。
RQ3探索と性能に対する内発的報酬と外発的報酬の割引因子の違いは何か。
RQ4並列体験量をスケールさせると、RNDベースのエージェントの性能と最終成果にどう影響するか。
RQ5RND は前方ダイナミクスベースの探索手法やベースラインと比較して、複数の難しい探索型 Atari ゲームでどうか。

主な発見

Gravitar	Montezuma’s Revenge	Pitfall!	PrivateEye	Solaris	Venture
3906	8152	-3	8666	3282	1859
3426	2497	0	105	3387	0
3371	400	0	33	3246	1712
2209	3700	0	15806	12380	1813
3351	4753	6464	69571	12327	1188

RND は複数の難しい Atari ゲームで強力な探索を実現し、ベースラインを上回り、デモンストレーションなしで Montezuma’s Revenge で最先端を達成した。
非エピソード的な内発的報酬とエピソード的な外発的報酬を組み合わせる（2つの値ヘッドを使用）ことで、エピソードのみの設定よりも探索が向上する。
外発的ディスカウント因子の値が高いほど性能は向上する一方、内発的ディスカウント因子の値が高すぎると探索が損なわれることがある。
並列環境を多く用いた大規模な訓練は、平均リターンを高め、特に再帰的ポリシーと組み合わせた場合に最終的な性能を向上させる。
RND は Montezuma’s Revenge、Private Eye、Solaris で前方ダイナミクスベースの探索を上回り、複数のゲームで PPO を上回るか同等の成績を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。