[论文解读] Deep active inference agents using Monte-Carlo methods
该论文提出了一种基于蒙特卡洛(MC)方法的深度主动推理智能体,以实现在复杂连续状态空间中的规划与高效学习。通过整合蒙特卡洛树搜索(MCTS)进行策略选择、使用习惯性网络近似策略、利用MC丢弃进行信念更新,并引入可学习的精度调制机制,该智能体实现了解耦表征与奖励导向导航,在性能上匹配或超越基于奖励的智能体,同时保持了生物学上的合理性。
Active inference is a Bayesian framework for understanding biological intelligence. The underlying theory brings together perception and action under one single imperative: minimizing free energy. However, despite its theoretical utility in explaining intelligence, computational implementations have been restricted to low-dimensional and idealized situations. In this paper, we present a neural architecture for building deep active inference agents operating in complex, continuous state-spaces using multiple forms of Monte-Carlo (MC) sampling. For this, we introduce a number of techniques, novel to active inference. These include: i) selecting free-energy-optimal policies via MC tree search, ii) approximating this optimal policy distribution via a feed-forward `habitual' network, iii) predicting future parameter belief updates using MC dropouts and, finally, iv) optimizing state transition precision (a high-end form of attention). Our approach enables agents to learn environmental dynamics efficiently, while maintaining task performance, in relation to reward-based counterparts. We illustrate this in a new toy environment, based on the dSprites data-set, and demonstrate that active inference agents automatically create disentangled representations that are apt for modeling state transitions. In a more complex Animal-AI environment, our agents (using the same neural architecture) are able to simulate future state transitions and actions (i.e., plan), to evince reward-directed navigation - despite temporary suspension of visual input. These results show that deep active inference - equipped with MC methods - provides a flexible framework to develop biologically-inspired intelligent agents, with applications in both machine learning and cognitive science.
研究动机与目标
- 将主动推理扩展至高维连续状态空间,因为先前的实现仅限于低维离散任务。
- 通过蒙特卡洛树搜索(MCTS)实现自由能最优策略选择,以在主动推理智能体中实现有效规划。
- 通过采用前馈“习惯性”网络近似最优策略,减轻在熟悉状态中重复规划的计算负担。
- 利用MC丢弃改进参数信念更新,实现在无需集成网络的情况下高效估计不确定性。
- 引入可学习的状态转移精度,作为自上而下的注意力机制,提升表征学习与解耦能力。
提出的方法
- 利用蒙特卡洛树搜索(MCTS)通过采样未来轨迹并估计期望自由能(EFE),选择自由能最优的策略。
- 使用前馈神经网络作为“习惯性”策略,近似最优策略分布,减少在熟悉状态中重复规划的需求。
- 应用MC丢弃预测模型参数的未来信念更新,实现在无需集成网络的情况下实现不确定性感知推理。
- 引入可学习的精度参数(ωt),调节状态转移中的不确定性,其功能类似于生物系统中的注意力机制。
- 在整个智能体中采用主动推理框架,通过单一深度神经网络架构实现动作最小化变分自由能。
- 采用变分推理端到端训练智能体,损失函数为变分自由能界(ELBO),确保感知与动作联合优化。
实验结果
研究问题
- RQ1蒙特卡洛方法是否能在高维连续状态空间中实现深度主动推理智能体的有效规划?
- RQ2MCTS与习惯性网络的结合在主动推理中如何提升样本效率并降低计算成本?
- RQ3MC丢弃在主动推理中能在多大程度上替代集成方法进行不确定性估计?
- RQ4可学习的状态转移精度是否能增强表征解耦并提升复杂环境中的学习性能?
- RQ5单一深度神经网络架构是否能在保持生物学合理性的同时,同时支持感知、规划与策略学习?
主要发现
- DAIMC智能体在dSprites基础环境中成功学习到解耦表征,这些表征在建模状态转移方面表现有效。
- 在Animal-AI环境中,智能体展示了奖励导向导航能力,并在视觉输入短暂中断时仍能模拟未来状态转移,表明其具备稳健的内部规划能力。
- 智能体在复杂任务中的表现与或优于基于奖励的智能体,表明结合MC方法的主动推理是标准强化学习的可行替代方案。
- 使用MC丢弃进行信念更新的性能与集成方法相当,但计算成本更低,支持其高效性。
- 可学习精度(ωt)通过促进潜在特征之间的统计独立性,增强了表征解耦,与生物系统中的注意力机制相一致。
- 智能体利用MCTS进行规划,并在部分观测条件下保持高性能,表明其在动态环境中具备鲁棒性与适应性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。