[论文解读] Learning Category-Specific Mesh Reconstruction from Image Collections
该论文提出了一种深度学习框架,仅使用标注的图像集合(无需真实3D数据或多视角监督),即可从单张图像预测详细的3D纹理网格重建结果。该方法利用类别特定的可变形网格,结合学习得到的均值形状与实例特定的形变,实现形状、相机位姿和纹理的端到端预测,在CUB和PASCAL3D+数据集上达到最先进性能,对新视角具有强泛化能力,并能实现语义关键点对齐。
We present a learning framework for recovering the 3D shape, camera, and texture of an object from a single image. The shape is represented as a deformable 3D mesh model of an object category where a shape is parameterized by a learned mean shape and per-instance predicted deformation. Our approach allows leveraging an annotated image collection for training, where the deformable model and the 3D prediction mechanism are learned without relying on ground-truth 3D or multi-view supervision. Our representation enables us to go beyond existing 3D prediction approaches by incorporating texture inference as prediction of an image in a canonical appearance space. Additionally, we show that semantic keypoints can be easily associated with the predicted shapes. We present qualitative and quantitative results of our approach on CUB and PASCAL3D datasets and show that we can learn to predict diverse shapes and textures across objects using only annotated image collections. The project website can be found at https://akanazawa.github.io/cmr/.
研究动机与目标
- 解决在无需真实3D数据或多视角监督的情况下,从单张图像学习3D形状重建的挑战。
- 实现在单张未标注测试图像上,端到端预测3D网格形状、相机位姿和纹理。
- 仅使用标注的图像集合(前景掩码和语义关键点)训练一个稳健的、类别特定的3D生成模型。
- 引入统一的3D表示,支持在规范外观空间中预测纹理,并实现语义关键点关联。
- 通过用可学习的高效预测网络替代迭代优化,克服现有基于拟合方法的局限性。
提出的方法
- 将3D形状表示为规范空间中的可变形网格,通过类别特定的均值形状和通过深度神经网络学习的实例特定形变向量进行参数化。
- 训练卷积神经网络,仅使用2D标注(掩码和关键点)直接从单张图像预测形变参数、相机位姿和纹理坐标。
- 使用规范纹理空间来预测像素级纹理值,实现在不同实例间的一致外观建模。
- 通过可微渲染,回归将规范网格投影到图像坐标的相机参数,以保证几何一致性。
- 使用多任务损失进行端到端训练,结合掩码重投影、关键点监督和3D形状重建损失。
- 引入可微渲染层,通过将3D网格可微投影到2D图像空间,对形状和纹理预测进行监督。
实验结果
研究问题
- RQ1能否仅使用标注的图像集合(无任何3D监督)训练深度学习模型,从单张图像预测详细的3D纹理网格重建?
- RQ2当仅使用2D标注进行训练时,类别特定的可变形网格模型在新实例和新视角上的泛化能力如何?
- RQ3在无真实3D纹理或多视角图像的情况下,能否有效在规范空间中预测并渲染纹理?
- RQ4在相同弱监督设置下,所提方法相较于现有基于拟合或体素预测的方法,性能提升程度如何?
- RQ5能否利用所提出的基于形变的表示,可靠地将语义关键点与预测的3D形状关联?
主要发现
- 在CUB数据集上,该方法对飞机类别的掩码重投影IoU达到0.46,对汽车类达到0.64,优于DRC和CSDM等先前方法。
- 在PASCAL3D+上,该模型在汽车类别重建中达到0.64的平均交并比(IoU),与使用相似监督的先前方法相比相当或更优。
- 与均值形状基线相比,PCK(正确关键点比例)提升1%,在归一化距离阈值0.1下达到0.81。
- 可视化结果表明,预测的3D形状在新视角下具有良好的泛化能力,能保持形状和纹理的一致性。
- 尽管监督信息有限,该方法仍能成功预测多样化物体类别的纹理,但在高光区域(如汽车)或低数据类别(如飞机)中仍存在误差。
- 该框架可在一次前向传播中联合预测形状、相机位姿和纹理,相比迭代拟合方法展现出更高效的推理性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。