QUICK REVIEW

[論文レビュー] VIME: Variational Information Maximizing Exploration

Rein Houthooft, Xi Chen|arXiv (Cornell University)|May 31, 2016

Reinforcement Learning in Robotics参考文献 39被引用数 376

ひとこと要約

VIME を紹介する。連続制御の好奇心主導の探索戦略で、ベイズニューラルネットワークの変分推定を用いて環境ダイナミクスに関する情報獲得を最大化し、ヒューリスティック法より探索を改善する。

ABSTRACT

Scalable and effective exploration remains a key challenge in reinforcement learning (RL). While there are methods with optimality guarantees in the setting of discrete state and action spaces, these methods cannot be applied in high-dimensional deep RL scenarios. As such, most contemporary RL relies on simple heuristics such as epsilon-greedy exploration or adding Gaussian noise to the controls. This paper introduces Variational Information Maximizing Exploration (VIME), an exploration strategy based on maximization of information gain about the agent's belief of environment dynamics. We propose a practical implementation, using variational inference in Bayesian neural networks which efficiently handles continuous state and action spaces. VIME modifies the MDP reward function, and can be applied with several different underlying RL algorithms. We demonstrate that VIME achieves significantly better performance compared to heuristic exploration methods across a variety of continuous control tasks and algorithms, including tasks with very sparse rewards.

研究の動機と目的

高次元の連続強化学習環境における探索に対処する。
環境ダイナミクスについての情報獲得を最大化して探索を導く。
ベイズニューラルネットワークを用いた変分推定を用いて内因的報酬を計算する。
疎報酬を含む複数のRLアルゴリズムとタスクで有効性を示す。

提案手法

歴史を与えたときの次の状態とダイナミクスモデルのパラメータとの間の相互情報として好奇心を定式化する。
ダイナミクスモデルとしてベイズニューラルネットワークを用い、変分ベイズで事後分布の更新を近似する。
内因的報酬を情報獲得項として定義する: η DKL[q(θ; φt+1) || q(θ; φt)].
θ に対して完全に因子化されたガウス事後分布を用いる実用的な SGVB (Bayes by Backprop) 学習ルーチンを実装する。
リプレイプールを用いて定期的に事後を更新し、学習を安定化させ、内因的報酬の計算を効率化する。
VIME を標準的なRLアルゴリズム（例：TRPO、REINFORCE、ERWR）と統合して、連続制御タスクにおける探索を改善する。

実験結果

リサーチクエスチョン

RQ1VIME は sparse rewards の連続制御タスクにおける探索と最終性能を向上させるのか？
RQ2TRPO 以外の異なる基になる RL アルゴリズムに対しても VIME は有効か？
RQ3探索パラメータ η は探索と開発的 exploitation のバランスにどのように影響するか？
RQ4状態-行動空間を離散化せずに、変分ベイズダイナミクスモデルは高次元の連続制御へスケールできるか？

主な発見

VIME はいくつかの疎報酬連続制御タスク（例：MountainCar、CartPoleSwingup、HalfCheetah）で、素朴な探索戦略を大幅に上回る。
VIME は TRPO、REINFORCE、 ERWR と組み合わせた場合、複数の領域で性能向上をもたらす。
この手法は、階層的 SwimmerGather タスクを含む、疎報酬の難しいタスクでの学習を可能にする。
VIME 下の訪問パターンは、ガウスノイズと比較して探索がより拡散しており、体系的な探索を示している。
MountainCar が異なるアルゴリズムで効果的に解決される η の広い範囲が存在し、探索信号の頑健性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。