QUICK REVIEW

[論文レビュー] Contingency-Aware Exploration in Reinforcement Learning

Jongwook Choi, Yijie Guo|arXiv (Cornell University)|Nov 5, 2018

Reinforcement Learning in Robotics参考文献 42被引用数 28

ひとこと要約

本論文では、自己教師ありの注意メカニズムを用いた動的モデル（ADM）を用いて、Atariゲームにおける制御可能要素を学習する、自己教師ありの探索手法Contingency-Aware Exploration（CoEX）を提案する。この手法により、報酬が疎である環境でも探索性能が向上し、熟練者データや教師信号を一切使用せず、Montezuma’s Revengeで11,618というSOTAスコアを達成した。

ABSTRACT

This paper investigates whether learning contingency-awareness and controllable aspects of an environment can lead to better exploration in reinforcement learning. To investigate this question, we consider an instantiation of this hypothesis evaluated on the Arcade Learning Element (ALE). In this study, we develop an attentive dynamics model (ADM) that discovers controllable elements of the observations, which are often associated with the location of the character in Atari games. The ADM is trained in a self-supervised fashion to predict the actions taken by the agent. The learned contingency information is used as a part of the state representation for exploration purposes. We demonstrate that combining actor-critic algorithm with count-based exploration using our representation achieves impressive results on a set of notoriously challenging Atari games due to sparse rewards. For example, we report a state-of-the-art score of >11,000 points on Montezuma's Revenge without using expert demonstrations, explicit high-level information (e.g., RAM states), or supervisory data. Our experiments confirm that contingency-awareness is indeed an extremely powerful concept for tackling exploration problems in reinforcement learning and opens up interesting research questions for further investigations.

研究の動機と目的

制御可能環境ダイナミクスを理解する「コンティンジェンシー・アウェアネス」を学習することで、強化学習における探索性能が向上するかを調査すること。
教師信号や手作業で設計された特徴量を一切使用せず、制御可能要素（例：エージェントの位置）を発見できる自己教師あり手法を開発すること。
学習したコンティンジェンシー・アウェアネス表現を状態表現の一部として統合し、報酬が疎な環境での探索性能を向上させること。
熟練者によるデモンストレーション、RAM状態、外部の教師信号に依存せずに、Montezuma’s Revengeのような挑戦的なAtariゲームで優れた性能を達成すること。
コンティンジェンシー・アウェアネスが、強化学習における探索のための一般的で解釈可能かつ効果的な抽象化として機能するかを検討すること。

提案手法

エージェントの行動を連続する観測から予測するように、自己教師ありの方法で注意メカニズムを用いた動的モデル（ADM）を学習する。
ADMは空間的アテンションを用いて、エージェントの行動に依存する観測領域を特定し、制御可能要素のセグメンテーションを効果的に学習する。
環境シミュレータやラベルを一切使用せず、生の観測とエージェントのポリシー行動のみを用いて、RL学習中にオンラインでモデルを学習する。
学習したコンティンジェンシー・アウェアネス表現を状態抽象化として用い、擬似カウントを計算するためのcount-based探索に統合する。
特にPPOを用いたアクター・クリティックアルゴリズムに統合するため、状態表現にADMの出力を追加することで探索を誘導する。
ADMは制御可能ダイナミクスのコンパクトで分離可能な表現を学習し、効率的かつ解釈可能な状態抽象化を可能にする。

実験結果

リサーチクエスチョン

RQ1自己教師ありの制御可能ダイナミクスの学習は、強化学習における探索性能を向上させるか？
RQ2エージェントが制御可能な環境の部分を理解する「コンティンジェンシー・アウェアネス」は、報酬が疎なAtariゲームの解決に有益か？
RQ3注意ベースの動的モデルは、教師信号や事前知識なしに意味のある制御可能領域を学習できるか？
RQ4学習したコンティンジェンシー情報を取り入れたcount-based探索は、より高いサンプル効率と性能をもたらすか？
RQ5このアプローチは、熟練者デモンストレーションや高レベルの状態情報に依存せずに、Montezuma’s RevengeでSOTA結果を達成できるか？

主な発見

提案手法CoEXは、5億環境ステップでMontezuma’s Revengeにおいて11,618という新たなSOTAスコアを達成し、vanilla PPOや先行手法を大きく上回った。
Montezuma’s Revengeにおいて、熟練者デモンストレーション、RAM状態、監視データを一切使用せず、11,000点を超えるスコアを達成した。
本手法はPrivateEyeで11,000点、Seaquestで11,794点を達成するなど、多数のAtariゲームで優れた性能を示し、広範な適用可能性を示した。
学習曲線は安定的で高速な学習を示し、PPO+CoEXは5億ステップ以内に高い性能に到達したが、vanilla PPOは0点または1,797点の付近で停滞した。
ADMベースの表現はエージェントの位置や制御可能要素を効果的に捉えており、報酬が極めて疎な環境でも効果的な探索が可能だった。
逆動的モデルの正確性がやや低い場合でも本手法は有効であることが示され、コンティンジェンシー推定の小さな誤差に対してもロバストであることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。