[论文解读] Discriminative Particle Filter Reinforcement Learning for Complex Partial Observations
本文提出了一种新型的POMDP强化学习框架——判别性粒子滤波强化学习(DPFRL),该框架采用可微分粒子滤波器并结合判别性更新函数,显式追踪潜在状态的信念分布,从而避免对无关视觉特征进行建模。DPFRL在闪烁雅达利游戏(Flickering Atari Games)基准上达到最先进性能,并在一项更复杂的新基准——自然闪烁雅达利游戏(Natural Flickering Atari Games)上表现优异,同时在使用Habitat数据的真实世界视觉导航任务中也展现出卓越性能。
Deep reinforcement learning is successful in decision making for sophisticated games, such as Atari, Go, etc. However, real-world decision making often requires reasoning with partial information extracted from complex visual observations. This paper presents Discriminative Particle Filter Reinforcement Learning (DPFRL), a new reinforcement learning framework for complex partial observations. DPFRL encodes a differentiable particle filter in the neural network policy for explicit reasoning with partial observations over time. The particle filter maintains a belief using learned discriminative update, which is trained end-to-end for decision making. We show that using the discriminative update instead of standard generative models results in significantly improved performance, especially for tasks with complex visual observations, because they circumvent the difficulty of modeling complex observations that are irrelevant to decision making. In addition, to extract features from the particle belief, we propose a new type of belief feature based on the moment generating function. DPFRL outperforms state-of-the-art POMDP RL models in Flickering Atari Games, an existing POMDP RL benchmark, and in Natural Flickering Atari Games, a new, more challenging POMDP RL benchmark introduced in this paper. Further, DPFRL performs well for visual navigation with real-world data in the Habitat environment.
研究动机与目标
- 解决在具有复杂视觉观测的环境中,因部分可观测性带来的决策挑战。
- 克服粒子滤波器中生成性观测模型的局限性,后者必须建模所有视觉特征(包括无关特征),从而增加样本复杂度。
- 开发一种可微分、端到端可训练的信念追踪机制,仅聚焦于任务相关特征,以提升样本效率。
- 提出一种基于矩生成函数(MGF)的信念表示方法,该方法具有置换不变性且计算高效。
- 在合成基准(闪烁雅达利游戏)与一项新、更真实的基准(自然闪烁雅达利游戏)上,均实现卓越性能。
提出的方法
- 将可微分粒子滤波器集成到神经网络策略中,其中信念以加权潜在粒子集合的形式表示。
- 使用通过神经网络学习的判别性兼容性函数作为重要性权重,替代生成性观测模型,从而仅关注任务相关特征。
- 应用观测条件化的转移模型来更新粒子状态,该模型与策略一起进行端到端训练。
- 提出基于MGF的特征,以置换不变且可微的方式总结粒子信念,捕捉高阶统计矩。
- 使用标准强化学习损失对整个系统进行端到端训练,无需单独预训练或辅助目标。
- 采用非参数贝叶斯滤波器(重要性加权粒子滤波器)来随时间维护和更新信念,实现对部分观测的显式推理。
实验结果
研究问题
- RQ1在复杂部分观测下,采用端到端训练的判别性粒子滤波器是否能超越标准生成性模型在POMDP强化学习中的表现?
- RQ2与均值聚合或RNN-based总结方法相比,使用基于MGF的信念特征是否能提升策略学习性能?
- RQ3与先前最先进方法相比,DPFRL在具有真实视觉噪声与复杂观测的新基准(自然闪烁雅达利游戏)上的表现如何?
- RQ4在复杂视觉任务中,各组件(判别性更新、MGF特征、粒子数量)对整体性能的贡献分别是什么?
- RQ5DPFRL能否泛化到使用真实传感器数据(如Habitat环境)的真实世界视觉导航任务?
主要发现
- 在闪烁雅达利游戏基准上,DPFRL显著优于现有最先进POMDP强化学习模型,在所有游戏中均实现了更高的平均回报。
- 在新引入的自然闪烁雅达利游戏基准上,DPFRL达到最先进性能,Pong游戏的回报为15.65 ± 1.99,甚至超过最佳基线模型。
- 消融实验表明,使用生成性观测模型的DPFRL-generative版本性能远低于DPFRL,尤其在Pong游戏中差距显著(-20.21 vs. 15.65),证实了判别性学习的优势。
- 使用1个粒子(DPFRL-P1)导致性能较差,表明需使用多个粒子才能有效表示复杂的信念分布。
- MGF-based特征在Pong和Centipede等需要丰富信念表示的任务中,显著优于均值聚合(DPFRL-mean)与RNN-based总结(DPFRL-GRUmerge)。
- 在Habitat视觉导航任务中,DPFRL展现出对真实世界数据的强大泛化能力,表明其对真实传感器噪声与视觉复杂性的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。