[论文解读] Perception-Based Beliefs for POMDPs with Visual Observations
本文提出了基于感知的POMDP信念框架(Framework),将感知模型用于将视觉观测映射到状态分布并相应更新信念,同时引入不确定性量化以提高对视觉损坏的鲁棒性,并与现有POMDP求解器兼容。
Partially observable Markov decision processes (POMDPs) are a principled planning model for sequential decision-making under uncertainty. Yet, real-world problems with high-dimensional observations, such as camera images, remain intractable for traditional belief- and filtering-based solvers. To tackle this problem, we introduce the Perception-based Beliefs for POMDPs framework (PBP), which complements such solvers with a perception model. This model takes the form of an image classifier which maps visual observations to probability distributions over states. PBP incorporates these distributions directly into belief updates, so the underlying solver does not need to reason explicitly over high-dimensional observation spaces. We show that the belief update of PBP coincides with the standard belief update if the image classifier is exact. Moreover, to handle classifier imprecision, we incorporate uncertainty quantification and introduce two methods to adjust the belief update accordingly. We implement PBP using two traditional POMDP solvers and empirically show that (1) it outperforms existing end-to-end deep RL methods and (2) uncertainty quantification improves robustness of PBP against visual corruption.
研究动机与目标
- 在高维图像观测条件下激发VPOMDP下的不确定性规划动机。
- 通过将图像映射到状态分布实现感知与规划解耦,以实现可扩展的信念更新。
- 将不确定性量化引入感知以提升对视觉损坏的鲁棒性。
- 提供一个多功能框架,可嵌入现有POMDP求解器(如HSV I、POMCP),并与端到端DRL方法进行对比。
提出的方法
- 提出一个视觉可分解的VPOMDP模型,其中视觉观测仅依赖于视觉状态分量,从而实现基于感知的信念更新。
- 定义感知模型f: Z_v -> Delta(S_v),从视觉数据集训练,以逼近Pr(S_v | Z_v)。
- 推导基于感知的信念更新,当感知模型精确时与标准更新一致(方程5退化为标准更新)。
- 引入不确定性量化(温度缩放的校准TUQ,以及加权UUQ)以在信念更新过程中调整或忽略不可靠的感知输出(方程6和7)。
- 通过计划模型hat_M将基于感知的更新嵌入现有规划器(HSVI、POMCP),使用用于规划的视觉数据子集,以及用于不确定性感知更新的独立感知数据集。

实验结果
研究问题
- RQ1如何在不使观测空间指数膨胀的情况下将视觉观测整合到POMDP信念更新中?
- RQ2感知模型是否能将图像映射到状态分布,在精确时是否能保持标准信念更新,以及如何处理不精确?
- RQ3不确定性量化是否提高了VPOMDP在视觉损坏条件下的鲁棒性?
- RQ4该框架能否与传统POMDP求解器有效结合以实现竞争性性能?
- RQ5在基于视觉的规划设置中,与端到端深度RL方法相比,该方法有何优势?
主要发现
- 如果感知模型是精确的,框架所得到的信念更新与标准更新一致(理论等价性)。
- 当视觉观测被污染或不确定时,不确定性量化提高了信念更新的鲁棒性。
- 在使用HSVI和POMCP的实现中,框架的表现与最先进的VPOMDP求解器具有竞争力,在测试场景中,尤其是在视觉污染下,优于端到端深度RL基线。
- 使用面向规划的视觉数据集和感知数据集实现了与现有POMDP求解器的实际集成,并支持不确定性感知规划。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。