Skip to main content
QUICK REVIEW

[论文解读] PoseRBPF: A Rao-Blackwellized Particle Filter for 6D Object Pose Tracking

Xinke Deng, Arsalan Mousavian|arXiv (Cornell University)|May 22, 2019
Advanced Neural Network Applications参考文献 40被引用 52
一句话总结

PoseRBPF 将 6D 物体姿态跟踪分解为使用 Rao-Blackwellized 粒子滤波的平移和旋转分布;旋转通过自动编码器学习的离散码本来处理;它跟踪完整的姿态后验,并在 YCB-Video 与 T-LESS 上达到最新结果,包括对物体对称性鲁棒处理。

ABSTRACT

Tracking 6D poses of objects from videos provides rich information to a robot in performing different tasks such as manipulation and navigation. In this work, we formulate the 6D object pose tracking problem in the Rao-Blackwellized particle filtering framework, where the 3D rotation and the 3D translation of an object are decoupled. This factorization allows our approach, called PoseRBPF, to efficiently estimate the 3D translation of an object along with the full distribution over the 3D rotation. This is achieved by discretizing the rotation space in a fine-grained manner, and training an auto-encoder network to construct a codebook of feature embeddings for the discretized rotations. As a result, PoseRBPF can track objects with arbitrary symmetries while still maintaining adequate posterior distributions. Our approach achieves state-of-the-art results on two 6D pose estimation benchmarks. A video showing the experiments can be found at https://youtu.be/lE5gjzRKWuA

研究动机与目标

  • 在带有时间不确定性的视频中提出对 6D 物体姿态跟踪的动机并解决该问题。
  • 开发一个能表示对 3D 旋转和 3D 平移的完整后验分布的概率框架。
  • 在没有手动对称性标注的情况下,实现对任意对称性的物体的鲁棒跟踪。
  • 利用学习得到的表示来高效地对每帧评估多种姿态假设。

提出的方法

  • 将 6D 姿态后验分解为平移 P(T_k|Z_1:k) 和旋转 P(R_k|T_k, Z_1:k)。
  • 使用 Rao-Blackwellized 粒子滤波来对平移进行采样,并为每个粒子维护离散的旋转分布(旋转以 5 度分辨率离散化,分布为 72x37x72 桶)。
  • 训练一个自编码器,从一个规范平移下渲染的对象视图,建立离散化旋转的特征嵌入码本;通过与 RoI 的余弦相似度实现快速旋转似然度。
  • 通过将真实 RGB 图像转换为通过自编码器得到的合成域嵌入,并将 RoI 嵌入与码本进行匹配来计算观测似然度。
  • 用恒定速度运动先验传播平移,用对先前旋转分布进行 3D 高斯卷积来传播旋转。
  • 扩展到 RGB-D,通过结合基于深度的深度不一致分数和可见性掩模来细化每个粒子的似然度。
  • 从 2D 检测器初始化,然后对每帧迭代更新粒子平移和旋转分布,进行再采样,并通过码本匹配质量来实现跟踪失败检测的可能性。

实验结果

研究问题

  • RQ16D 姿态跟踪是否可以表示为一个在实时中高效抽样的平移和旋转后验?
  • RQ2如何将学习得到的旋转表示整合到概率滤波中,以在没有显式对称性标注的情况下处理对称性?
  • RQ3将平移与旋转解耦是否可以实现对完整姿态后验的准确跟踪,并在对称/非纹理对象上获得鲁棒性能?
  • RQ4在将 RGB-D 数据与旋转码本匹配方法结合时,是否能提升姿态跟踪?
  • RQ5粒子数量对在挑战性数据集上的实时性能和精度有何影响?

主要发现

  • PoseRBPF 通过将平移与旋转解耦并在每个粒子上使用离散的旋转码本来表示对 6D 姿态的完整后验。
  • 每个粒子的旋转分布在 191,808 个桶内维持(72x37x72),分辨率为 5 度,从而实现多模态的定向跟踪。
  • 基于自编码器得到的码本通过 RoI 嵌入与离散旋转嵌入之间的余弦相似度,实现高效的旋转似然度。
  • 使用深度图扩展,通过深度不一致和可见性提高了姿态精度,超越仅使用 RGB 的情况,在 YCB-Video 和 T-LESS 数据集上达到最先进结果。
  • 在 RGB 版本中约以每秒 20 帧的速度运行,在 RGB-D 配置下通过 GPU 加速的码本匹配可达到每秒约 20 帧;增加粒子数量会提高精度,结合 PoseCNN 预测的混合 PoseRBPF++ 变体可带来进一步提升。
  • PoseRBPF 能有效处理对象对称性,而不需要显式的对称性标注,并提供可解释的旋转后验,在具有挑战性的对称和非纹理对象上得到验证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。