[论文解读] SurfNet: Generating 3D shape surfaces using deep residual networks
SurfNet 提出了一种深度残差网络,通过使用一致的几何图像作为表面表示,直接从2D图像或参数化表示生成3D形状表面。该方法实现了形状间的逼真插值、从未见视角的重建,以及通过学习的内部表示改善对应标记,其在效率和表面保真度方面优于基于体素的方法。
3D shape models are naturally parameterized using vertices and faces, \ie, composed of polygons forming a surface. However, current 3D learning paradigms for predictive and generative tasks using convolutional neural networks focus on a voxelized representation of the object. Lifting convolution operators from the traditional 2D to 3D results in high computational overhead with little additional benefit as most of the geometry information is contained on the surface boundary. Here we study the problem of directly generating the 3D shape surface of rigid and non-rigid shapes using deep convolutional neural networks. We develop a procedure to create consistent `geometry images' representing the shape surface of a category of 3D objects. We then use this consistent representation for category-specific shape surface generation from a parametric representation or an image by developing novel extensions of deep residual networks for the task of geometry image generation. Our experiments indicate that our network learns a meaningful representation of shape surfaces allowing it to interpolate between shape orientations and poses, invent new shape surfaces and reconstruct 3D shape surfaces from previously unseen images.
研究动机与目标
- 开发一种深度学习框架,直接从2D图像或参数化编码生成3D形状表面,避免计算成本高昂的3D体素表示。
- 为一类形状中的 genus-0 3D 表面创建一致且鲁棒的几何图像表示,对参数化切口和球面映射保持不变。
- 扩展深度残差网络,实现从2D输入端到端生成3D表面坐标 (x, y, z),隐式估计姿态并保留高频表面细节。
- 实现不同姿态和形状之间的表面插值,包括未见过的中间构型。
- 利用神经网络的内部表示校正噪声网格对应关系,提升训练数据质量。
提出的方法
- 该方法通过求解3D网格与基础球面参数化之间的大规模对应问题,构建一致的几何图像,确保在形状类别内拓扑和几何的一致性。
- 采用深度残差U-Net架构,从输入图像或单热编码的形状码预测编码3D表面坐标 (x, y, z) 的几何图像。
- 通过学习残差映射,网络能够生成高频表面细节,从而提高重建精度和泛化能力。
- 输入数据包括刚性物体(如汽车、飞机)的RGB图像和非刚性物体(如手部)的深度图像,生成过程中隐式估计视点。
- 该模型利用学习到的潜在表示,通过将预测的几何图像反投影到原始网格空间,来优化噪声网格对应关系。
- 一个单热编码向量控制形状身份,实现潜在空间中形状的线性插值,从而生成逼真的中间表面形态。
实验结果
研究问题
- RQ1深度神经网络能否在不进行体素化的情况下,直接从2D图像或参数化编码生成逼真的3D形状表面?
- RQ2如何为一类3D形状构建一致的几何图像表示,以实现可靠训练和生成?
- RQ3深度残差网络在多大程度上能够学习到3D形状表面的解耦且有意义的表示,从而支持在不同姿态和身份之间的插值?
- RQ4网络的内部表示能否用于校正训练集中噪声或不准确的网格对应关系?
- RQ5该模型是否能泛化到重建训练期间未见过的3D表面姿态,并生成合理的新型形状?
主要发现
- 网络能够从未见过的RGB图像和深度图像成功生成逼真的3D形状表面,对刚性和非刚性类别均表现出稳健的重建能力。
- 在单热编码形状向量之间进行线性插值,可生成不同汽车和飞机型号之间的平滑、逼真形态,包括中间车身风格。
- 该模型学习到了形状与姿态的解耦表示,能够同时沿方位角和形状身份进行插值。
- 网络预测的几何图像通过减少基底网格上的噪声并平滑梯度,显著提升了对应质量,优于原始对应图。
- 通过视觉对比和对应质量度量验证,该方法实现了低伪影的高保真表面重建。
- 该方法能泛化到训练期间未见过的新形状和姿态,表明网络捕捉到了有意义且可泛化的形状表示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。