Skip to main content
QUICK REVIEW

[论文解读] HybridPose: 6D Object Pose Estimation under Hybrid Representations

Chen Song, Jiaru Song|arXiv (Cornell University)|Jan 7, 2020
Robotics and Sensor-Based Localization参考文献 1被引用 20
一句话总结

HybridPose 提出了一种6D物体位姿估计方法,通过结合关键点、边缘向量和对称对应关系的混合中间表示,提升了在遮挡情况下的鲁棒性。通过使用鲁棒优化模块联合回归来自多种几何信号的位姿,其在30 fps下于Occlusion Linemod基准上实现了47.5%的最先进准确率,优于先前的方法(包括DPOD)。

ABSTRACT

We introduce HybridPose, a novel 6D object pose estimation approach. HybridPose utilizes a hybrid intermediate representation to express different geometric information in the input image, including keypoints, edge vectors, and symmetry correspondences. Compared to a unitary representation, our hybrid representation allows pose regression to exploit more and diverse features when one type of predicted representation is inaccurate (e.g., because of occlusion). Different intermediate representations used by HybridPose can all be predicted by the same simple neural network, and outliers in predicted intermediate representations are filtered by a robust regression module. Compared to state-of-the-art pose estimation approaches, HybridPose is comparable in running time and accuracy. For example, on Occlusion Linemod dataset, our method achieves a prediction speed of 30 fps with a mean ADD(-S) accuracy of 47.5%, representing a state-of-the-art performance. The implementation of HybridPose is available at https://github.com/chensong1995/HybridPose.

研究动机与目标

  • 解决单一表示在遮挡和关键点预测噪声下的位姿估计局限性。
  • 通过将多样化的几何线索——关键点、边缘向量和对称对应关系——整合到统一框架中,提升位姿估计准确率。
  • 通过可训练的鲁棒范数,过滤中间表示中的异常值,实现鲁棒的位姿回归。
  • 在保持30 fps实时推理速度的同时,提升在遮挡及具有挑战性的物体实例上的性能表现。

提出的方法

  • HybridPose 使用单个深度神经网络预测三种中间表示:2D关键点、相邻关键点之间的边缘向量,以及物体像素的密集对称对应关系。
  • 边缘向量被定义为所有预测关键点对之间的位移向量,编码空间关系和梯度信息。
  • 对称对应关系被预测为像素级的映射,指向对称对应点,从而在反射平面上稳定旋转估计。
  • 采用两阶段位姿回归模块:首先利用所有中间信号通过类似线性PnP的公式初始化位姿,然后通过Geman-McClure鲁棒范数进行优化,以抑制异常值。
  • 训练流程使用位姿预测头生成中间表示,并通过独立的验证集进行位姿优化,实现有效的自监督。
  • 通过可微的鲁棒范数实现异常值过滤,在优化过程中降低不一致预测的权重。

实验结果

研究问题

  • RQ1结合多种中间表示(关键点、边缘向量和对称对应关系)是否能提升在遮挡条件下的6D位姿估计鲁棒性?
  • RQ2边缘向量和对称对应关系的整合是否提供了额外的几何约束,从而在准确率上超越仅依赖关键点的方法?
  • RQ3统一且简单的网络架构能否有效预测多种混合表示,同时保持实时推理速度?
  • RQ4当中间预测存在噪声或不完整时,鲁棒回归模块如何提升位姿估计准确率?

主要发现

  • 在Occlusion Linemod基准上,HybridPose实现了47.5%的平均ADD(-S)准确率,优于PVNet(40.8%)和先前最先进方法DPOD。
  • 完整模型(包含全部三种表示)将中值旋转误差从1.357°(仅关键点)降低至1.104°,平移误差从0.061降至0.040,表现出显著提升。
  • 引入边缘向量带来的性能增益最大,相比仅使用关键点,旋转误差降低18%,平移误差降低34%。
  • 对称对应关系的引入使旋转估计平均提升0.5°,尤其在反射平面上显著增强了预测稳定性。
  • HybridPose在普通工作站上以30 fps运行,尽管表示复杂度增加,仍保持了实时性能。
  • 消融实验表明,边缘向量对平移准确率贡献更大,而对称对应关系则增强了旋转稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。