Skip to main content
QUICK REVIEW

[论文解读] 6-DoF Object Pose from Semantic Keypoints

Georgios Pavlakos, Xiaowei Zhou|arXiv (Cornell University)|Mar 14, 2017
Human Pose and Action Recognition参考文献 36被引用 33
一句话总结

该论文提出了一种新颖的单张RGB图像6-DoF物体位姿估计方法,通过将深度卷积网络生成的语义关键点预测与可变形形状模型相结合。该方法利用热力图响应值在位姿优化过程中加权关键点置信度,实现了在PASCAL3D+数据集上SOTA的视角估计精度,且推理时间低于0.3秒。

ABSTRACT

This paper presents a novel approach to estimating the continuous six degree of freedom (6-DoF) pose (3D translation and rotation) of an object from a single RGB image. The approach combines semantic keypoints predicted by a convolutional network (convnet) with a deformable shape model. Unlike prior work, we are agnostic to whether the object is textured or textureless, as the convnet learns the optimal representation from the available training image data. Furthermore, the approach can be applied to instance- and class-based pose recovery. Empirically, we show that the proposed approach can accurately recover the 6-DoF object pose for both instance- and class-based scenarios with a cluttered background. For class-based object pose estimation, state-of-the-art accuracy is shown on the large-scale PASCAL3D+ dataset.

研究动机与目标

  • 解决在杂乱场景中对具有纹理和无纹理物体进行6-DoF物体位姿估计的挑战。
  • 在不依赖纹理或特定物体实例的情况下,实现对多样化物体类别的鲁棒位姿估计。
  • 开发一个适用于实例级和类别级位姿恢复场景的统一框架。
  • 通过在位姿优化中引入热力图置信度,提高对关键点定位误差的鲁棒性。
  • 实现适用于机器人和交互式应用的实时性能。

提出的方法

  • 使用堆叠的hourglass卷积网络从单张RGB图像中预测类别特定的语义关键点热力图。
  • 使用基于PCA基或CAD模型的可变形3D形状模型来建模物体形状的可变性。
  • 将位姿估计表述为2D检测到的关键点与3D形状模型之间的几何一致性优化问题。
  • 在优化过程中引入热力图响应值作为置信度权重,以降低对错误关键点检测的敏感性。
  • 支持弱透视和完整透视相机模型用于位姿拟合。
  • 当存在对应点云时,使用预测的位姿初始化ICP进行精炼。

实验结果

研究问题

  • RQ1基于深度学习的关键点检测器与可变形形状模型相结合,能否实现对具有纹理和无纹理物体的准确6-DoF位姿估计?
  • RQ2将热力图置信度整合到6-DoF位姿估计中,如何提升对关键点定位误差的鲁棒性?
  • RQ3所提方法是否能在不依赖实例特定模型的情况下实现跨物体类别的泛化?
  • RQ4与SOTA方法相比,该方法在大规模基准数据集PASCAL3D+上的表现如何?
  • RQ5该方法在机器人和视觉系统中实现实时应用的可扩展性如何?

主要发现

  • 所提方法在PASCAL3D+上对10类物体实现了SOTA的中位旋转误差,使用CAD基形状建模时,aero类为8.0°,bike类为13.4°,bus类为2.0°。
  • 该方法显著优于均匀加权基线方法(aero类为16.3°,car类为30.7°),证明了置信度加权的重要性。
  • TV显示器和船类的失败案例分别源于共面关键点(病态问题)和物体尺寸过小导致前后方向模糊。
  • 在标准台式机(i7 CPU,GTX Titan X GPU)上,该方法推理时间低于0.3秒,其中关键点预测耗时0.2秒,位姿拟合耗时<0.1秒。
  • 该方法在类别级位姿估计中表现出良好的泛化能力,即使在存在显著类内差异和视角多样性的情况下也能实现高精度。
  • 将热力图响应值用作置信度度量可提升鲁棒性,尤其在存在错误关键点检测的杂乱场景中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。