QUICK REVIEW

[論文レビュー] Episodic Curiosity through Reachability

Nikolay Savinov, Anton Raichuk|arXiv (Cornell University)|Oct 4, 2018

Reinforcement Learning in Robotics参考文献 29被引用数 162

ひとこと要約

本論文は、エピソード記憶ベースの到達可能性予測器を介してエピソード的好奇心を導入し、密な探索ボーナスを提供する手法を提案する。これにより sparse-reward 強化学習のパフォーマンスを3D環境全般で向上させる。 VizDoom/DMLab で ICM を上回り、MuJoCo で一人称視点の好奇心を可能にする。

ABSTRACT

Rewards are sparse in the real world and most of today's reinforcement learning algorithms struggle with such sparsity. One solution to this problem is to allow the agent to create rewards for itself - thus making rewards dense and more suitable for learning. In particular, inspired by curious behaviour in animals, observing something novel could be rewarded with a bonus. Such bonus is summed up with the real task reward - making it possible for RL algorithms to learn from the combined reward. We propose a new curiosity method which uses episodic memory to form the novelty bonus. To determine the bonus, the current observation is compared with the observations in memory. Crucially, the comparison is done based on how many environment steps it takes to reach the current observation from those in memory - which incorporates rich information about environment dynamics. This allows us to overcome the known "couch-potato" issues of prior work - when the agent finds a way to instantly gratify itself by exploiting actions which lead to hardly predictable consequences. We test our approach in visually rich 3D environments in ViZDoom, DMLab and MuJoCo. In navigational tasks from ViZDoom and DMLab, our agent outperforms the state-of-the-art curiosity method ICM. In MuJoCo, an ant equipped with our curiosity module learns locomotion out of the first-person-view curiosity only.

研究の動機と目的

エピソード的好奇心モジュールを導入して密な探索ボーナスを生み出し、sparse-reward 強化学習の課題に対処する。
エピソード記憶を活用して、到達可能性（環境ステップ数）に基づいて現在の観測と過去の観測を比較する。
新規性を定量化するための到達可能性ネットワークと埋め込み/比較子のペアを訓練する。
コーチポータブルな行動に対する頑健性を示し、VizDoom、DMLab、MuJoCo のタスクで探索を向上させる。

提案手法

埋め込みネットワーク E と比較子 C を用いて到達可能性ネットワーク R(o_i, o_j)=C(E(o_i), E(o_j)) を形成する。
エピソード内の過去の埋め込みのエピソディックメモリ M を保持する；novelty が閾値を超える場合に現在の観測を保存する。
記憶からの到達可能性を、記憶アイテムまでの推定距離に依存する関数 B(M, e) から得られる novelty ボーナス b を計算する。タスク報酬 r に対して b を付与する。
シーケンスから抽出した観測の対を使って R-ネットワークを訓練する。正例は k 内で時間的に近く、負例はそれより離れており、ロジスティック回帰損失を用いる。
PPO にボーナスをタスク報酬に追加することで統合する；ポリシー学習中にオンラインまたはオフラインで R-ネットワークを訓練する。
VizDoom、DMLab、MuJoCo の設定で PPO のベースライン、PPO+ICM、Grid Oracle と比較する。

実験結果

リサーチクエスチョン

RQ1prediction-error ベースの方法で見られる couch-potato 行動を回避できる、到達可能性ベースのエピソード記憶が強力な好奇心信号を提供できるか。
RQ2エピソード的好奇心は、最先端のベースラインと比較して、 sparse-reward の3D環境で学習効率と最終性能を向上させるか。
RQ3プロシージャル生成された高変動性レベルや無報酬探索シナリオでの性能はどうなるか。
RQ4高密度報酬タスクに対しても好奇心信号は性能を損なわず適合するか。
RQ5連続制御領域（MuJoCo）での第一人称視点の好奇心へ一般化できるか。

主な発見

手法	Sparse	Very Sparse	Sparse+Doors	No Reward	No Reward - Fire	Dense 1	Dense 2
PPO	27.0 ± 5.1	8.6 ± 4.3	1.5 ± 0.1	191 ± 12	217 ± 19	22.8 ± 0.5	9.41 ± 0.02
PPO + ICM	23.8 ± 2.8	11.2 ± 3.9	2.7 ± 0.2	72 ± 2	87 ± 3	20.9 ± 0.6	9.39 ± 0.02
PPO + EC (ours)	26.2 ± 1.9	24.7 ± 2.2	8.5 ± 0.6	475 ± 8	492 ± 10	19.9 ± 0.7	9.53 ± 0.03
PPO + ECO (ours)	41.6 ± 1.7	40.5 ± 1.1	19.8 ± 0.5	472 ± 18	457 ± 32	22.9 ± 0.4	9.60 ± 0.02
PPO + Grid Oracle	56.7 ± 1.3	54.3 ± 1.2	29.4 ± 0.5	796 ± 2	795 ± 3	20.9 ± 0.6	8.97 ± 0.04

EC は VizDoom および DMLab ナビゲーションタスクで ICM ベースラインを上回る。
プロシージャル生成された DMLab レベルでは、EC は sparse なターゲットに対して ICM より少なくとも2倍の成功率を示す。
無報酬探索では、EC は ICM よりはるかに広い領域をカバーする（無報酤/無発射バリアントは ICM の苦戦を示す）。
密度報酬 DMLab タスクでは、EC はベースラインと比較して PPO の性能を有意に低下させない。
MuJoCo のアリが第一人称視点の報酬信号のみで移動を学習する。
すべてのベンチマークで、EC は従来の好奇心メソッドより収束が速く、探索がより頑健である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。