QUICK REVIEW

[论文解读] A neurally plausible model learns successor representations in partially observable environments

Eszter Vértes, Maneesh Sahani|arXiv (Cornell University)|Jun 22, 2019

Neural dynamics and brain function参考文献 20被引用 27

一句话总结

该论文提出了一种神经上合理（neurally plausible）的模型，通过基于分布式分布编码（DDC）的分布性后续特征（DSFs），在部分可观察环境中学习后续表示（SR）。通过将潜在状态推断与SR计算相结合，该模型即使在噪声大、信息不全的观测条件下，也能实现高效的值函数估计与强化学习，其性能优于仅依赖原始观测的模型。

ABSTRACT

Animals need to devise strategies to maximize returns while interacting with their environment based on incoming noisy sensory observations. Task-relevant states, such as the agent's location within an environment or the presence of a predator, are often not directly observable but must be inferred using available sensory information. Successor representations (SR) have been proposed as a middle-ground between model-based and model-free reinforcement learning strategies, allowing for fast value computation and rapid adaptation to changes in the reward function or goal locations. Indeed, recent studies suggest that features of neural responses are consistent with the SR framework. However, it is not clear how such representations might be learned and computed in partially observed, noisy environments. Here, we introduce a neurally plausible model using distributional successor features, which builds on the distributed distributional code for the representation and computation of uncertainty, and which allows for efficient value function computation in partially observed environments via the successor representation. We show that distributional successor features can support reinforcement learning in noisy environments in which direct learning of successful policies is infeasible.

研究动机与目标

解决在状态无法直接观测的部分可观察环境中学习后续表示的挑战。
开发一种生物上合理的方法，用于表示和计算状态转移及未来值估计中的不确定性。
将潜在状态推断与后续表示相结合，实现在噪声大、不确定环境中的高效强化学习。
证明分布性后续特征可在直接从观测学习失败的情况下，支持有效的策略学习。

提出的方法

该模型使用分布式分布编码（DDC）表示对潜在状态的不确定性，从而实现从噪声观测中的概率推断。
它引入了分布性后续特征（DSFs），以概率化、与状态-动作相关的方式编码对未来状态占据情况的期望。
生成模型学习潜在状态的动力学，而识别模型则从观测中推断潜在状态的后验分布。
值函数通过状态与动作特征的双线性变换计算，利用学习到的转移算子 P 预测下一状态的期望。
策略通过基于计算出的 Q 值进行贪婪动作选择获得，其生物合理性通过环状吸引子类神经实现方式体现。
提出回放机制以在离线学习期间优化识别模型，类比于休息期间海马体的回放过程。

实验结果

研究问题

RQ1在具有噪声感官输入的部分可观察环境中，如何学习并计算后续表示？
RQ2潜在状态推断中的不确定性在实现有效强化学习中起到什么作用？
RQ3当直接基于观测的学习失败时，分布性后续特征是否能够支持值函数计算与策略学习？
RQ4如何在一个统一的、神经上合理的框架中整合类脑的推理与规划机制，以实现后续表示？
RQ5海马体回放在部分可观察环境中学习后续表示的神经机制中起什么功能作用？

主要发现

当使用推断的潜在状态或直接观测结合分布性后续特征时，该模型成功学习了值函数与策略，其性能优于仅依赖原始观测的模型。
使用分布性后续特征的智能体在100个episode的直方图分布中表现出高奖励收集能力，表明策略学习稳定且高效。
基于推断状态（μ）计算的值函数与基于真实状态的真值值函数高度一致，证明了潜在状态推断的准确性。
该模型在部分可观察设置中表现出鲁棒性，而直接基于观测的学习因感官噪声与模糊性而失败。
DDC与后续表示的结合实现了对未来状态占据情况与值函数的高效、生物上合理的计算。
回放机制被证明可优化识别模型，支持海马体回放有助于学习潜在状态动力学与不确定性表征的假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。