[论文解读] Learning Efficient Point Cloud Generation for Dense 3D Object Reconstruction
论文提出一个二维卷积框架,利用伪渲染器和多视角联合优化来生成用于对象表面密集的3D点云,而不是传统的3D卷积神经网络。
Conventional methods of 3D object generative modeling learn volumetric predictions using deep networks with 3D convolutional operations, which are direct analogies to classical 2D ones. However, these methods are computationally wasteful in attempt to predict 3D shapes, where information is rich only on the surfaces. In this paper, we propose a novel 3D generative modeling framework to efficiently generate object shapes in the form of dense point clouds. We use 2D convolutional operations to predict the 3D structure from multiple viewpoints and jointly apply geometric reasoning with 2D projection optimization. We introduce the pseudo-renderer, a differentiable module to approximate the true rendering operation, to synthesize novel depth maps for optimization. Experimental results for single-image 3D object reconstruction tasks show that we outperforms state-of-the-art methods in terms of shape similarity and prediction density.
研究动机与目标
- 通过聚焦于表面密集表示,推动高效的3D形状生成,超越体素体积。
- 开发一个基于2D卷积的结构生成器,以从多个视点预测3D点。
- 引入一个可微分的伪渲染器,使来自新视点的深度图监督成为可能。
- 在单图像3D重建任务中展示更高的形状精度和表面密度。
提出的方法
- 使用潜在编码器从输入数据产生潜在表征。
- 在N个视点处预测3D结构,使用生成每像素(x, y, z, mask)的2D卷积结构生成器。
- 使用已知的视点旋转矩阵和内参将预测点转换为标准化的3D坐标。
- 引入一个伪渲染器,通过对投影空间进行上采样并对逆深度应用最大池化,从而在新视点上合成深度图。
- 在多个新视点上使用联合的2D投影损失进行训练,该损失包含掩码损失和深度损失(L = L_mask + lambda * L_depth)。
- 先对结构生成器进行预训练,使其预测深度图,然后进行端到端微调,结合联合的2D投影优化。
实验结果
研究问题
- RQ1来自2D卷积网络的密集点云在单图像3D重建中是否可以匹配或超越体素/基于点的基线?
- RQ2通过可微分伪渲染器对新视点投影进行联合优化是否能够提高表面保真度和密度?
- RQ3相较于隐式的3D体学习,显式地对3D几何和透视投影进行因式分解如何影响重建质量?
主要发现
- 所提出的方法在形状密度和准确性方面优于最先进的3D预测方法。
- 在单类别椅子重建中,该方法在两个方向(pred.→GT和GT→pred)上均实现了低于所有基线的平均3D距离。
- 在13个ShapeNet类别中,该方法在每个类别的3D误差方面均低于3D-R2N2基线,且在单视图预测方面常常优于Fan等人。
- 定性结果显示,与体素基线相比,点云更密集、表面保真度更高。
- 潜在空间操作产生平滑的插值和语义上有意义的形状变化(椅子、桌子),表明具可解释的生成结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。