[论文解读] Discovery of Latent 3D Keypoints via End-to-end Geometric Reasoning
本文提出 KeypointNet,是一个端到端框架,学习潜在的一组3D关键点和检测器,优化以用于下游姿态估计任务,无需地面真值关键点注释,并在 ShapeNet 的汽车、椅子和飞机上相对于有监督基线展示出更优秀的姿态估计性能。
This paper presents KeypointNet, an end-to-end geometric reasoning framework to learn an optimal set of category-specific 3D keypoints, along with their detectors. Given a single image, KeypointNet extracts 3D keypoints that are optimized for a downstream task. We demonstrate this framework on 3D pose estimation by proposing a differentiable objective that seeks the optimal set of keypoints for recovering the relative pose between two views of an object. Our model discovers geometrically and semantically consistent keypoints across viewing angles and instances of an object category. Importantly, we find that our end-to-end framework using no ground-truth keypoint annotations outperforms a fully supervised baseline using the same neural network architecture on the task of pose estimation. The discovered 3D keypoints on the car, chair, and plane categories of ShapeNet are visualized at http://keypointnet.github.io/.
研究动机与目标
- 直接优化一组最小、类别特定的3D关键点以用于下游几何任务的动机。
- 提出一个端到端框架,联合学习关键点检测器及其3D坐标。
- 鼓励关键点在不同视角和对象实例之间具有几何一致性。
- 证明潜在关键点在相对姿态估计方面可以超越监督关键点。
提出的方法
- 定义带有多视图一致性损失和相对姿态估计损失的端到端目标。
- 使用具有空间softmax和深度预测的平移等变网络,从单张图像预测3D关键点(u,v,z)。
- 通过可微的Procrustes(SVD)对齐两视图并计算姿态误差来优化关键点。
- 使用3D分离损失和轮廓一致性项来确保关键点在轮廓内分布良好且位于内部。
- 对方向信息进行编码以打破对称性并在对称物体上稳定关键点分配。
实验结果
研究问题
- RQ1端到端为下游任务学习的潜在3D关键点是否能在姿态估计方面优于人工标注的关键点?
- RQ2多视图一致性和可微的姿态目标是否能在对象实例之间产生几何意义且视图一致的关键点?
- RQ3学习到的关键点在 ShapeNet 类别内对未见形状和视角的泛化程度如何?
主要发现
| 方法 | 汽车平均值 | 汽车中位数 | 汽车3D-SE | 飞机平均值 | 飞机中位数 | 飞机3D-SE | 椅子平均值 | 椅子中位数 | 椅子3D-SE |
|---|---|---|---|---|---|---|---|---|---|
| a) Supervised | 16.268 | 5.583 | 0.240 | 18.350 | 7.168 | 0.233 | 21.882 | 8.771 | 0.269 |
| b) Supervised with orientation flag | 13.961 | 4.475 | 0.197 | 17.800 | 6.802 | 0.230 | 20.502 | 8.261 | 0.248 |
| c) Ours with pretrained orientation | 13.500 | 4.418 | 0.165 | 18.561 | 6.407 | 0.223 | 14.238 | 5.607 | 0.203 |
| d) Ours | 11.310 | 3.372 | 0.171 | 17.330 | 5.721 | 0.230 | 14.572 | 5.420 | 0.196 |
- KeypointNet 学会了几何和语义上有意义的3D关键点,例如轮子、驾驶舱、机翼和椅脚。
- 该无监督端到端方法在相对3D姿态估计上优于有监督基线。
- 关键点在跨视图和未见实例上一致,且在没有显式深度监督的情况下也能推断深度。
- 方向预测有助于提升性能;即使存在遮挡,关键点在视图间仍然保持一致。
- 该方法在 ShapeNet 的汽车、椅子和飞机上具泛化能力,对较大视角变化仍然鲁棒。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。