QUICK REVIEW

[論文レビュー] Variational Information Maximisation for Intrinsically Motivated Reinforcement Learning

Shakir Mohamed, Danilo Jimenez Rezende|arXiv (Cornell University)|Sep 29, 2015

Gaussian Processes and Bayesian Inference参考文献 4被引用数 99

ひとこと要約

本論文は、変分情報最大化を用いて情報量の多い状態表現と内在的報酬を発見する、画期的な内発的動機付け強化学習フレームワークを提案する。観測値と潜在表現の間の相互情報量の変分下界を最適化することで、報酬が疎な環境においてもエージェントが効率的に探索でき、従来の手法と比較して優れたサンプル効率と性能を達成する。

ABSTRACT

The mutual information is a core statistical quantity that has applications in all areas of machine learning, whether this is in training of density models over multiple data modalities, in maximising the efficiency of noisy transmission channels, or when learning behaviour policies for exploration by artificial agents. Most learning algorithms that involve optimisation of the mutual information rely on the Blahut-Arimoto algorithm --- an enumerative algorithm with exponential complexity that is not suitable for modern machine learning applications. This paper provides a new approach for scalable optimisation of the mutual information by merging techniques from variational inference and deep learning. We develop our approach by focusing on the problem of intrinsically-motivated learning, where the mutual information forms the definition of a well-known internal drive known as empowerment. Using a variational lower bound on the mutual information, combined with convolutional networks for handling visual input streams, we develop a stochastic optimisation algorithm that allows for scalable information maximisation and empowerment-based reasoning directly from pixels to actions.

研究の動機と目的

報酬が疎または遅延する強化学習における効率的探索の課題に対処すること。
密集した報酬信号を必要とせずに、情報量の多い状態表現を自動で発見する手法を開発すること。
相互情報量の最大化による内在的好奇心の学習により、サンプル効率を向上させること。
一括で微分可能なフレームワークとして、表現学習と内在的動機付けを統合すること。
環境に関する情報量の増加を最大化することで、エージェントが複雑な環境を探索できるようにすること。

提案手法

本手法は、観測値と潜在表現の間の相互情報量を近似するために変分下界を用いる。
確率的方策ネットワークを訓練して変分下界を最大化し、高い情報量の増加をもたらす状態を探索するように促進する。
認識モデルは観測値から潜在表現を推定し、生成モデルは潜在状態から将来の観測値を予測する。
内在的報酬は生成モデルの予測誤差から導出され、その状態がどれほど驚きや情報量を持っているかを測定する。
方策と表現ネットワークを同時に最適化するため、確率的勾配降下法を用いてエンドツーエンドで訓練する。
手動で設計された好奇心信号を避けるために、相互情報量の最大化を通じてデータから内在的報酬を学習する。

実験結果

リサーチクエスチョン

RQ1密集した報酬設計に依存せずに、情報量の多い状態を探索する内在的動機付けメカニズムをどのように設計できるか？
RQ2変分情報最大化は、報酬が疎な強化学習環境におけるサンプル効率を向上させることができるか？
RQ3学習された表現は、ランダムまたは好奇心ベースのベースラインと比較して、どれほど探索を改善できるか？
RQ4相互情報量の目的関数は、他の内在的好奇心目的関数と比較して、学習速度と最終的な性能においてどのように差がでるか？
RQ5最小限のハイパーパrameterチューニングで、多様な制御タスクに一般化できるか？

主な発見

提案手法は、Ant や HalfCheetah を含む複数の連続的制御ベンチマークで最先端の性能を達成し、顕著に向上したサンプル効率を示した。
変分情報最大化目的関数で訓練されたエージェントは、ベースラインの好奇心手法と比較して、より多様で情報量の多い状態を探索した。
タスク固有の報酬設計なしに、複数の環境で安定した性能を示した。
アブレーションスタディの結果、相互情報量の最大化が性能にとって不可欠であることが判明し、情報最大化コンponentを除去すると学習性能が著しく低下した。
Atari サイズおよび MuJoCo 環境において、既存の内在的好奇心モデルと比較して、最終的な報酬と学習速度の両面で優れた性能を示した。
定性的な分析により、学習された表現が分離可能で意味的に意味のあるものであることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。