QUICK REVIEW

[論文レビュー] A neurally plausible model learns successor representations in partially observable environments

Eszter Vértes, Maneesh Sahani|arXiv (Cornell University)|Jun 22, 2019

Neural dynamics and brain function参考文献 20被引用数 27

ひとこと要約

本稿では、分散分布型符号化（DDC）に基づく分布型後続特徴（DSF）を用いて、部分的に観察可能な環境で後続表現（SR）を学習する神経的に妥当なモデルを提案する。潜在状態推論とSR計算を統合することにより、観測がノイズが多く不完全な状況下でも、効率的な価値関数推定と強化学習が可能となり、直接的な観測に依存するモデルよりも優れた性能を示す。

ABSTRACT

Animals need to devise strategies to maximize returns while interacting with their environment based on incoming noisy sensory observations. Task-relevant states, such as the agent's location within an environment or the presence of a predator, are often not directly observable but must be inferred using available sensory information. Successor representations (SR) have been proposed as a middle-ground between model-based and model-free reinforcement learning strategies, allowing for fast value computation and rapid adaptation to changes in the reward function or goal locations. Indeed, recent studies suggest that features of neural responses are consistent with the SR framework. However, it is not clear how such representations might be learned and computed in partially observed, noisy environments. Here, we introduce a neurally plausible model using distributional successor features, which builds on the distributed distributional code for the representation and computation of uncertainty, and which allows for efficient value function computation in partially observed environments via the successor representation. We show that distributional successor features can support reinforcement learning in noisy environments in which direct learning of successful policies is infeasible.

研究の動機と目的

観察可能な状態が直接得られない部分的に観察可能な環境における後続表現の学習という課題に対処すること。
状態遷移と将来の価値推定における不確実性を表現・計算する生物学的に妥当なメカニズムの開発。
ノイズが多く不確実な環境下で、潜在状態推論と後続表現を統合し、効率的な強化学習を実現すること。
直接的な観測から学習が失敗する状況において、分布型後続特徴が有効な方策学習を可能にするかを実証すること。

提案手法

モデルは、ノイズの多い観測からの確率的推論を可能にするために、潜在状態の不確実性を表現する分散分布型符号化（DDC）を用いる。
期待される将来の状態占有度を確率的かつ状態・行動依存的に符号化する分布型後続特徴（DSF）を導入する。
生成モデルが潜在状態のダイナミクスを学習し、認識モデルが観測から潜在状態の事後分布を推論する。
価値関数は、状態と行動特徴の二重線形変換により計算され、学習された遷移作用素Pを用いて次状態の期待値を予測する。
Q値の計算に基づくグリーディな行動選択により方策が導出され、リングアトラクタに類似した神経的実装を通じて生物学的妥当性が示唆される。
リプレイ機構を提案し、リカバリ中（オフライン学習時）に認識モデルを精緻化する。これは、休息時の海馬リプレイを模倣するものである。

実験結果

リサーチクエスチョン

RQ1ノイズの多い感覚入力がある部分的に観察可能な環境において、後続表現をどのように学習・計算できるか。
RQ2潜在状態推論における不確実性が、効果的な強化学習を可能にする役割を果たすか。
RQ3直接観測に基づく学習が失敗する状況において、分布型後続特徴が価値関数の計算と方策学習を支援できるか。
RQ4推論と計画の脳に類似したメカニズムを、1つの神経的に妥当なフレームワーク内で後続表現に統合できるか。
RQ5海馬リプレイの機能的役割は、部分的に観察可能な環境における後続表現の学習において、何を果たすか。

主な発見

推論された潜在状態または直接観測を用いた分布型後続特徴を用いることで、モデルは価値関数と方策を効果的に学習し、直接的な観測に依存するモデルを上回る性能を示した。
分布型後続特徴を用いたエージェントは、100エピソードにわたるヒストグラム分布で示されるように、高い報酬収集を達成し、安定的かつ効果的な方策学習が実現した。
推論された状態（μ）からの価値関数が、真の状態に基づく真の価値関数とよく一致しており、正確な潜在状態推論が実現したことが示された。
直接観測に基づく学習が感覚的ノイズと曖昧さのため失敗する部分的に観察可能な設定において、モデルは頑健な性能を示した。
DDCと後続表現の統合により、将来の状態占有度と価値関数の効率的かつ生物学的に妥当な計算が可能になった。
リプレイ機構が認識モデルの精緻化に寄与し、海馬リプレイが潜在状態ダイナミクスと不確実性表現の学習を支援するという仮説を支持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。