[论文解读] PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation
PVNet 引入像素级投票框架,从每个像素回归到 2D 关键点的单位向量,并使用 RANSAC 投票和一个考虑不确定性的 PnP,从单幅 RGB 图像估计 6DoF 位姿,对遮挡与截断具有鲁棒性。
This paper addresses the challenge of 6DoF pose estimation from a single RGB image under severe occlusion or truncation. Many recent works have shown that a two-stage approach, which first detects keypoints and then solves a Perspective-n-Point (PnP) problem for pose estimation, achieves remarkable performance. However, most of these methods only localize a set of sparse keypoints by regressing their image coordinates or heatmaps, which are sensitive to occlusion and truncation. Instead, we introduce a Pixel-wise Voting Network (PVNet) to regress pixel-wise unit vectors pointing to the keypoints and use these vectors to vote for keypoint locations using RANSAC. This creates a flexible representation for localizing occluded or truncated keypoints. Another important feature of this representation is that it provides uncertainties of keypoint locations that can be further leveraged by the PnP solver. Experiments show that the proposed approach outperforms the state of the art on the LINEMOD, Occlusion LINEMOD and YCB-Video datasets by a large margin, while being efficient for real-time pose estimation. We further create a Truncation LINEMOD dataset to validate the robustness of our approach against truncation. The code will be avaliable at https://zju-3dv.github.io/pvnet/.
研究动机与目标
- 解决在严重遮挡或截断条件下的单幅 RGB 图像的 6DoF 位姿估计。
- 用密集的像素级向量场预测替代稀疏关键点回归,以提高鲁棒性。
- 利用基于 RANSAC 的投票来定位关键点并量化定位不确定性以进行姿态估计。
提出的方法
- 从每个像素预测像素级语义标签和指向每个关键点的单位向量。
- 通过像素级向量的 RANSAC 风格交叉来生成关键点位置假设。
- 从投票中估计每个关键点的均值和协方差,以形成空间概率分布。
- 通过最小化马氏距离,利用关键点均值和协方差(不确定性驱动的 PnP)求解 6D 姿态。
- 用包括 Cut and Paste 增强的数据对 PVNet 进行训练,并使用基于 ResNet-18 的全卷积骨干网,带有膨胀卷积。
- 使用基于 FPS 的表面关键点选择(K=8)以及对象中心;应用不确定性感知的 PnP 进行姿态估计。
实验结果
研究问题
- RQ1在遮挡/截断条件下,密集的像素级向量场表示是否能相比回归/热力图方法改善 2D 关键点定位?
- RQ2在 PnP 求解器中加入关键点定位不确定性如何影响 6DoF 姿态精度?
- RQ3关键点选择策略和关键点数量对姿态估计性能有何影响?
- RQ4PVNet 在标准基准数据集(LINEMOD、Occlusion LINEMOD、YCB-Video)以及截断场景下的表现如何?
主要发现
- PVNet 在 LINEMOD、Occlusion LINEMOD 和 YCB-Video 数据集上达到最先进的性能。
- 不确定性驱动的 PnP 通过利用每个关键点的协方差提升姿态精度,相较于 EPnP。
- 使用通过最远点采样选出的 8 个表面关键点(再加上中心点)在高效性与精度上表现出色。
- 基于向量场的像素级投票对遮挡和截断具有鲁棒性,优于基于回归的关键点方法。
- 该方法在 GTX 1080 Ti 上大约以 25 fps 运行,适合实时应用。
- 论文引入了一个 Truncation LINEMOD 数据集,以验证对截断的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。