QUICK REVIEW

[论文解读] Bayesian policy selection using active inference

Ozan Çatal, Johannes Nauta|arXiv (Cornell University)|Apr 17, 2019

Reinforcement Learning in Robotics参考文献 22被引用 22

一句话总结

本文提出了一种基于主动推理的贝叶斯策略选择框架，其中智能体通过变分推断学习世界模型，并通过最小化期望自由能来选择动作。该方法在无需奖励塑形的情况下成功解决了悬崖车问题，通过从专家轨迹中学习并利用偏好状态先验，实现了对不同起始位置的泛化。

ABSTRACT

Learning to take actions based on observations is a core requirement for artificial agents to be able to be successful and robust at their task. Reinforcement Learning (RL) is a well-known technique for learning such policies. However, current RL algorithms often have to deal with reward shaping, have difficulties generalizing to other environments and are most often sample inefficient. In this paper, we explore active inference and the free energy principle, a normative theory from neuroscience that explains how self-organizing biological systems operate by maintaining a model of the world and casting action selection as an inference problem. We apply this concept to a typical problem known to the RL community, the mountain car problem, and show how active inference encompasses both RL and learning from demonstrations.

研究动机与目标

开发一种基于自由能原理和主动推理的强化学习框架，以实现稳健且可泛化的策略学习。
通过将动作选择建模为贝叶斯推断，解决传统强化学习中的样本效率低下和奖励塑形问题。
将世界模型学习、规划与探索整合到一个受神经科学启发的统一规范框架中。
在悬崖车环境中验证该方法，展示其可从任意起始位置泛化的能力。

提出的方法

智能体使用变分自编码器（VAE）学习动力学模型，从观测中推断潜在状态空间。
采用一个分解为状态先验信念、观测似然性和动作策略的生成模型。
通过预测状态与偏好状态之间的KL散度以及预期观测熵的组合，计算期望自由能G(π)。
通过在期望自由能上使用softmax选择策略，实现目标导向行为与内在认知探索的结合。
通过在每个时间步最小化G(π)端到端训练策略，实现近似推断。
从专家轨迹中蒸馏出偏好状态先验，表示智能体的目标状态分布。

实验结果

研究问题

RQ1使用学习到的世界模型的主动推理能否在不显式奖励塑形的情况下解决悬崖车问题？
RQ2偏好状态先验与变分推断的结合在多大程度上实现了对初始条件的泛化？
RQ3主动推理在单一框架中支持目标导向行为与认知探索的程度如何？
RQ4与传统强化学习目标相比，最小化期望自由能在样本效率和鲁棒性方面表现如何？

主要发现

智能体成功学习到一个动力学模型，能够准确重建并预测环境观测，如图2所示。
基于学习模型的想象轨迹表明，期望自由能G(π)能有效识别通往山顶的轨迹。
通过最小化G(π)训练的策略可泛化至悬崖车环境中任意起始位置，始终成功抵达目标。
从专家轨迹中推导出的偏好状态分布准确捕捉了期望的终止状态，有效编码了稀疏奖励信号而无需显式奖励塑形。
该方法通过状态预测中的不确定性自然地融入认知探索，减少了对外部好奇心信号的依赖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。