[论文解读] EfficientPose: An efficient, accurate and scalable end-to-end 6D multi object pose estimation approach
EfficientPose 将 EfficientDet 扩展为预测多对象二维检测和完整的六维位姿,并在 Linemod 上实现基于 RGB 的六维位姿精度的最先进水平,同时具备高效性与可扩展性。
In this paper we introduce EfficientPose, a new approach for 6D object pose estimation. Our method is highly accurate, efficient and scalable over a wide range of computational resources. Moreover, it can detect the 2D bounding box of multiple objects and instances as well as estimate their full 6D poses in a single shot. This eliminates the significant increase in runtime when dealing with multiple objects other approaches suffer from. These approaches aim to first detect 2D targets, e.g. keypoints, and solve a Perspective-n-Point problem for their 6D pose for each object afterwards. We also propose a novel augmentation method for direct 6D pose estimation approaches to improve performance and generalization, called 6D augmentation. Our approach achieves a new state-of-the-art accuracy of 97.35% in terms of the ADD(-S) metric on the widely-used 6D pose estimation benchmark dataset Linemod using RGB input, while still running end-to-end at over 27 FPS. Through the inherent handling of multiple objects and instances and the fused single shot 2D object detection as well as 6D pose estimation, our approach runs even with multiple objects (eight) end-to-end at over 26 FPS, making it highly attractive to many real world scenarios. Code will be made publicly available at https://github.com/ybkscht/EfficientPose.
研究动机与目标
- 将 EfficientDet 扩展为在单次前向中同时预测 2D 检测和完整的六维位姿(旋转与平移)。
- 引入轻量级、共享子网用于旋转与平移,以在对象数量变化时维持效率。
- 提出 6D 增强,在训练数据有限时提升泛化能力。
- 开发对称性与非对称性对象直接优化 ADD(-S) 指标的鲁棒变换损失。
提出的方法
- 将 EfficientDet 扩展为两个额外子网,用于旋转(R)和平移(t)预测。
- 使用轴角旋转表示以及一个迭代细化模块来预测最终旋转。
- 通过预测二维中心点和深度来实现平移的估算,然后利用相机内参恢复三维平移。
- 应用基于 ADD(-S) 的变换损失,以直接优化非对称和对称物体的位姿精度。
- 引入 6D 增强,旋转并缩放图像,同时调整相应的 6D 位姿,从而在小数据集上提升泛化。
- 继承 EfficientDet 的 phi 可扩展主干,以实现跨一系列计算预算的端到端位姿估计。
实验结果
研究问题
- RQ1直接端到端的六维位姿估计是否能在无需如 PnP 或 RANSAC 这样的后处理下对 RGB 输入达到最先进的准确度?
- RQ2将 6D 位姿估计集成到 EfficientDet 是否能够在多实例场景下实现可扩展的单次检测多对象位姿估计?
- RQ36D 增强对基于 RGB 的六维位姿估计在小数据集上的泛化能力有何影响?
- RQ4网络缩放(phi)对多对象六维位姿估计的精度与吞吐量有何影响?
主要发现
- 在 Linemod 上对于 RGB 输入,在无后处理细化的情况下达到 97.35% 的 ADD(-S)。
- 端到端运行时速率超过 27 FPS,且每张图包含最多八个对象时超过 26 FPS。
- 在 Linemod 上优于现有 RGB-only 的方法,包括含有细化的最新方法。
- 由于共享特征图和基于锚框的预测,在单次前向中实现了有效的多对象与多实例检测。
- 在小数据集上,提出的 6D 增强显著提升了位姿估计性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。