[论文解读] Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
Pixel2Mesh 通过一个可微分的流水线从单个 RGB 图像生成 3D 网格模型,该流水线将 3D 顶点投影到图像平面并进行特征池化,在 ShapeNet-car 实验中超越基于八叉树的体素方法。
We propose an end-to-end deep learning architecture that produces a 3D shape in triangular mesh from a single color image. Limited by the nature of deep neural network, previous methods usually represent a 3D shape in volume or point cloud, and it is non-trivial to convert them to the more ready-to-use mesh model. Unlike the existing methods, our network represents 3D mesh in a graph-based convolutional neural network and produces correct geometry by progressively deforming an ellipsoid, leveraging perceptual features extracted from the input image. We adopt a coarse-to-fine strategy to make the whole deformation procedure stable, and define various of mesh related losses to capture properties of different levels to guarantee visually appealing and physically accurate 3D geometry. Extensive experiments show that our method not only qualitatively produces mesh model with better details, but also achieves higher 3D shape estimation accuracy compared to the state-of-the-art.
研究动机与目标
- 从单个 RGB 图像实现 3D 网格重建。
- 在可学习的流水线中集成可微分特征池化与网格变形。
- 对比体素基线并分析对初始网格的敏感性。
提出的方法
- 使用相机内参和透视投影将 3D 顶点投影到图像平面。
- 通过双线性插值在投影顶点位置对图像特征进行池化。
- 在拉普拉斯正则化项以实现表面平滑的前提下变形网格以拟合图像派生特征。
- 在 ShapeNet 数据集上与基于八叉树的体素重建方法进行比较。
- 分析对初始网格形状的敏感性,并提供来自多个视角的定性可视化。
实验结果
研究问题
- RQ1是否可以用带有可微分池化的网格表示来匹配或超越单图像下的体素重建?
- RQ2初始网格的选择如何影响重建质量和鲁棒性?
- RQ3正则化项(如拉普拉斯)对网格质量和光滑性有何影响?
主要发现
- 该方法在 ShapeNet-car 的 F-score 与 Chamfer-like 指标上总体优于基于八叉树的方法(F-score 72.128 vs 65.335;F-score 2τ 87.247 vs 79.733;CD 0.236 vs 0.361;EMD 1.220 vs 1.273)。
- Hausdorff 距离消融表明完整模型通常获得最好分数,拉普拉斯正则化有助于表面平滑。
- 该方法对初始网格形状不敏感,在球体和多种椭圆体变体下具有相近的 F-score 和 CD。
- 定性结果展示了平滑的表面和清晰的细节,模型能够泛化到真实世界图像。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。