[论文解读] Rethinking Reprojection: Closing the Loop for Pose-aware ShapeReconstruction from a Single Image
本文提出了一种新颖的框架,通过利用廉价的2D轮廓标注而非昂贵的3D形状和姿态标签,实现了从单张自然图像进行姿态感知的3D形状重建。该方法引入了一种重投影损失,通过最小化重投影轮廓与真实图像轮廓之间的差异,联合优化预测的3D形状和姿态,显著提升了当前最先进方法在姿态估计和3D形状重建方面的性能。
An emerging problem in computer vision is the reconstruction of 3D shape and pose of an object from a single image. Hitherto, the problem has been addressed through the application of canonical deep learning methods to regress from the image directly to the 3D shape and pose labels. These approaches, however, are problematic from two perspectives. First, they are minimizing the error between 3D shapes and pose labels - with little thought about the nature of this label error when reprojecting the shape back onto the image. Second, they rely on the onerous and ill-posed task of hand labeling natural images with respect to 3D shape and pose. In this paper we define the new task of pose-aware shape reconstruction from a single image, and we advocate that cheaper 2D annotations of objects silhouettes in natural images can be utilized. We design architectures of pose-aware shape reconstruction which re-project the predicted shape back on to the image using the predicted pose. Our evaluation on several object categories demonstrates the superiority of our method for predicting pose-aware 3D shapes from natural images.
研究动机与目标
- 解决现有3D形状和姿态重建方法依赖昂贵且易出错的3D标注所面临的局限性。
- 实现使用大规模、廉价的自然图像2D轮廓标注训练深度网络,而非使用3D CAD标签。
- 通过在真实自然图像上进行微调并辅以轮廓监督,弥合合成图像与真实图像之间的'渲染差距'。
- 通过基于重投影的损失联合优化姿态和3D形状预测,确保预测形状与观测轮廓之间的一致性。
- 在无需3D真实值的情况下,同时提升真实图像上的姿态估计和3D形状重建性能。
提出的方法
- 提出一种新型训练范式,结合合成渲染图像与标注有2D物体轮廓的真实自然图像。
- 引入一种新颖的重投影损失,用于度量在预测姿态下重投影的预测3D形状与真实图像轮廓之间的差异。
- 使用合成数据和真实数据的轮廓监督,对预训练网络(p-TL 和 p-3D-VAE-GAN)进行端到端微调。
- 在训练过程中,通过重投影损失联合优化以体素化形式表示的3D形状和6-DOF姿态参数。
- 在微调过程中使用固定的生成器网络,以保持形状的有效性并防止性能退化。
- 采用混合训练批次,同时包含用于监督的渲染图像和用于重投影损失的真实图像,以稳定优化过程。
实验结果
研究问题
- RQ1是否可以有效利用真实图像中的2D轮廓标注来训练3D形状和姿态重建网络,而无需3D真实值?
- RQ2最小化预测轮廓与真实轮廓之间的重投影误差,是否能带来优于标准3D重建损失的3D形状和姿态估计性能?
- RQ3通过重投影损失联合优化姿态和形状,是否能在真实图像上实现优于独立训练的性能提升?
- RQ4在真实图像上进行微调并辅以轮廓标注,能在多大程度上弥合3D重建中的'渲染差距'?
- RQ5所提出的方法是否能同时提升姿态估计和对齐形状重建的性能?
主要发现
- 在使用p-TL时,飞机类别在2D AP上实现了20.5%的相对提升(从0.589提升至0.704),表明轮廓匹配效果更好。
- 对于椅子类别,2D AP从0.844提升至0.849,3D AP从0.531提升至0.552,表明两项指标均持续提升。
- 飞机类别的旋转精度(Acc π/6)从0.67提升至0.68(p-TL),椅子类从0.76提升至0.80,表明姿态估计更优。
- 飞机类别的中位旋转误差从23.0°降至17.3°,椅子类从8.2°降至8.3°,表明姿态误差减少。
- 飞机类别的平移误差中位数从0.092降至0.077(相对于图像尺寸),表明定位性能提升。
- 在使用p-3D-VAE-GAN时,飞机类别的3D AP从0.183提升至0.249,表明对齐形状重建性能更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。