QUICK REVIEW

[論文レビュー] Unsupervised Predictive Memory in a Goal-Directed Agent

Greg Wayne, Chia-Chun Hung|arXiv (Cornell University)|Mar 28, 2018

Reinforcement Learning in Robotics参考文献 14被引用数 148

ひとこと要約

MERLINは、unsupervised predictive modelingで訓練された記憶ベースの予測子を使用して、極めて部分的に観測されるタスクを解決するAIエージェントであり、心理学/神経科学のベンチマークで標準的な記憶型RLエージェントを上回る。小さな状態変数を構築し、それを記憶に格納し、リターン予測を用いて表現と記憶の利用を形成する。

ABSTRACT

Animals execute goal-directed behaviours despite the limited range and scope of their sensors. To cope, they explore environments and store memories maintaining estimates of important information that is not presently available. Recently, progress has been made with artificial intelligence (AI) agents that learn to perform tasks from sensory input, even at a human level, by merging reinforcement learning (RL) algorithms with deep neural networks, and the excitement surrounding these results has led to the pursuit of related ideas as explanations of non-human animal learning. However, we demonstrate that contemporary RL algorithms struggle to solve simple tasks when enough information is concealed from the sensors of the agent, a property called "partial observability". An obvious requirement for handling partially observed tasks is access to extensive memory, but we show memory is not enough; it is critical that the right information be stored in the right format. We develop a model, the Memory, RL, and Inference Network (MERLIN), in which memory formation is guided by a process of predictive modeling. MERLIN facilitates the solution of tasks in 3D virtual reality environments for which partial observability is severe and memories must be maintained over long durations. Our model demonstrates a single learning agent architecture that can solve canonical behavioural tasks in psychology and neurobiology without strong simplifying assumptions about the dimensionality of sensory input or the duration of experiences.

研究の動機と目的

重要情報を見逃すセンサ環境下で、記憶機能を持つエージェントの運用を動機づける。
観測を状態変数に圧縮し、それを予測用に記憶に格納する記憶ベースの予測子 MERLIN の開発。
無監督予測モデリングが記憶形成を導き、心理学/神経科学に触発されたタスクで性能を向上させることを示す。

提案手法

MERLINを導入します。記憶ベース予測子（MBP）と読み書きメモリ機構を備えたポリシーを組み合わせたエージェントアーキテクチャ。
MBPは多モーダル観測を、変分オートエンコーダ風の枠組みで低次元の状態変数zにエンコードし、それを記憶に格納する。
prior p(z_t|z_{1:t-1},a_{1:t-1})とposterior q(z_t|z_{1:t-1},a_{1:t-1},o_t)を用いてz_tをサンプリングし、記憶を更新する。
変分下界（VLB）からなるMBPの訓練には、複数モダリティの再構成損失とpとqのKL項、さらに報酬関連情報へz_tを導くリターン予測デコーダが含まれる。
MBPの最適化をポリシーから切り離し、表現学習を報酬だけでなく予測モデリングに基づかせる。
MBPに加えて、過去の記憶に未来情報を付着させる後方更新を用い、リターン予測が表現をどう形作るかを探る。

実験結果

リサーチクエスチョン

RQ1観測と意思決定の間に長い遅延があるタスクを、無監督の予測的記憶が記憶ベースのエージェントに解決させることができるか。
RQ2予測モデリングを介して感覚入力を状態変数に圧縮することは、エンドツーエンドの記憶RLシステムと比較して記憶の形成と検索を改善するか。
RQ3ゴールからの異なる時間距離で形成された記憶が記憶読み出しを専門化し、階層的な目標指向戦略を可能にするか。
RQ4MERLINは、原始的な感覚データから、強い単純化仮定なしでワンショットナビゲーションなどの心理学/神経科学風タスクを解決できるか。

主な発見

MERLINは、記憶を要するタスク（例：Memory game、大規模環境でのナビゲーション）を解決し、RL-LSTMやRL-MEMが苦戦または失敗する。
MBPは高次元の感覚入力をおよそ10^2個の状態変数に圧縮し、予測モデリングを介してタスク関連情報を保持する。
MBPの記憶読み出しは、ゴールから異なる距離で形成された記憶に特化し、階層的な目標指向戦略を支持する。
MERLINは、広義的（allocentric）ゴール局在化の迅速さと堅牢なリターン予測を示し、記憶の使用と計画を導く。
任意の視運動マッピングや迅速な報酬評価を含む一連のタスクで、MERLINはエンドツーエンドのメモリベースラインを上回り、場合によっては人間の性能を上回る。
潜在学習と後方記憶更新により、MERLINは必要時に以前取得した情報を想起し活用でき、従来の時系列誤差逆伝播のウィンドウを超える場合もある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。