QUICK REVIEW

[論文レビュー] Curiosity-driven Exploration in Deep Reinforcement Learning via Bayesian Neural Networks.

Rein Houthooft, Xi Chen|arXiv (Cornell University)|May 31, 2016

Reinforcement Learning in Robotics参考文献 3被引用数 48

ひとこと要約

本論文は、ベイジアンニューラルネットワークにおける変分推論を用いて環境ダイナミクスに関する情報量の増加を最大化する、変分情報最大化探索（VIME）を提案する。VIMEは、スパarsely-rewardedな連続的制御タスクにおける探索を向上させ、複数のアルゴリズムと環境で、エピソン・グリーディーやノイズ注入といったヒューリスティック手法を上回る性能を発揮する。

ABSTRACT

Scalable and effective exploration remains a key challenge in reinforcement learning (RL). While there are methods with optimality guarantees in the setting of discrete state and action spaces, these methods cannot be applied in high-dimensional deep RL scenarios. As such, most contemporary RL relies on simple heuristics such as epsilon-greedy exploration or adding Gaussian noise to the controls. This paper introduces Variational Information Maximizing Exploration (VIME), an exploration strategy based on maximization of information gain about the agent's belief of environment dynamics. We propose a practical implementation, using variational inference in Bayesian neural networks which efficiently handles continuous state and action spaces. VIME modifies the MDP reward function, and can be applied with several different underlying RL algorithms. We demonstrate that VIME achieves significantly better performance compared to heuristic exploration methods across a variety of continuous control tasks and algorithms, including tasks with very sparse rewards.

研究の動機と目的

従来の最適性保証付き手法が失敗する高次元の連続的状態空間および行動空間における効果的な探索の課題に対処すること。
スパarsely-rewardedな環境におけるエピソン・グリーディーやガウスノイズといったヒューリスティック探索戦略の限界を克服すること。
信念の更新に基づく、スケーラブルで情報理論的根拠を持つ探索戦略の開発。
MDPの報酬関数を変更することで、さまざまな深層強化学習アルゴリズムとの統合を可能にすること。

提案手法

環境ダイナミクスの不確実性をモデル化し、情報量の増加を推定するために、変分推論を用いたベイジアンニューラルネットワークを用いる。
状態遷移とモデル事後分布の更新との間の相互情報量の最大化として探索を定式化する。
変分事後分布の更新から導出される情報量の増加項を含むように、環境の報酬関数を変更する。
SAC や PPO といった標準的な深層強化学習フレームワーク内で、情報量の増加を内生的カリキュリティとして統合することで、本手法を適用する。
連続空間における重みの事後分布を効率的に近似するために、確率的変分推論を活用する。
ニューラルネットワーク推論ネットワークを用いたアンモタイズド推論により、高次元の観測にスケーラブルに対応する。

実験結果

リサーチクエスチョン

RQ1信念の更新に基づく情報理論的探索は、連続的制御タスクにおけるサンプル効率を向上させることができるか？
RQ2VIMEは、スパarsely-rewardedな環境において、エピソン・グリーディーやノイズ注入といったヒューリスティック探索戦略と比べてどのように優れているか？
RQ3VIMEは、さまざまな深層強化学習アルゴリズムや環境にどの程度一般化可能か？
RQ4ダイナミクスに関する情報量の増加を最大化することは、収束速度の向上およびより優れた最終的パフォーマンスをもたらすか？

主な発見

VIMEは、連続的制御タスクにおいて、エピソン・グリーディーやガウスノイズといったヒューリスティック探索手法を顕著に上回る。
本手法は、スパarsely-rewardedな複数のベンチマーク環境において、優れたサンプル効率と最終的パフォーマンスを達成する。
AntMaze や HalfCheetah といったタスクでは、VIMEが学習速度と最終リターンの両方を向上させる。
SAC や PPO といったアルゴリズムとの統合により、アーキテクチャの変更なしに一貫したパフォーマンス向上が得られる。
ベイジアンニューラルネットワークの使用により、高次元空間における有効な不確実性推定と情報量の増加計算が可能になる。
VIMEは多様な環境と強化学習アルゴリズムにおいても頑健であり、その一般化可能性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。