Skip to main content
QUICK REVIEW

[论文解读] Convolutional Generation of Textured 3D Meshes

Dario Pavllo, Graham Spinks|arXiv (Cornell University)|Jun 13, 2020
3D Shape Modeling and Analysis参考文献 71被引用 26
一句话总结

该论文提出了一种2D卷积生成对抗网络(GAN)框架,仅使用自然图像的单视角2D监督,即可生成高分辨率的纹理3D三角网格。通过在姿态无关的UV空间中对网格和纹理进行语义对齐编码,该方法实现了形状与外观的可控、解耦生成,在Pascal3D+ Cars和CUB数据集上实现了网格和纹理质量的最先进性能。

ABSTRACT

While recent generative models for 2D images achieve impressive visual results, they clearly lack the ability to perform 3D reasoning. This heavily restricts the degree of control over generated objects as well as the possible applications of such models. In this work, we bridge this gap by leveraging recent advances in differentiable rendering. We design a framework that can generate triangle meshes and associated high-resolution texture maps, using only 2D supervision from single-view natural images. A key contribution of our work is the encoding of the mesh and texture as 2D representations, which are semantically aligned and can be easily modeled by a 2D convolutional GAN. We demonstrate the efficacy of our method on Pascal3D+ Cars and CUB, both in an unconditional setting and in settings where the model is conditioned on class labels, attributes, and text. Finally, we propose an evaluation methodology that assesses the mesh and texture quality separately.

研究动机与目标

  • 通过实现从2D监督下可控的、逼真的3D网格生成,弥合2D图像生成与3D推理之间的差距。
  • 克服2D GAN在处理3D空间推理、遮挡以及形状与外观解耦控制方面的局限性。
  • 开发一种可扩展的2D卷积框架,通过语义对齐的UV表示,同时建模网格几何与纹理。
  • 实现基于类别标签、属性或文本的3D网格条件生成,并具备可解释的注意力机制。
  • 提出一种新颖的评估协议,分别使用FID分数评估网格和纹理质量。

提出的方法

  • 该方法引入了一种‘卷积网格’表示法,通过位移图在切线空间中形变网格模板,确保平滑性并兼容2D卷积操作。
  • 网格和纹理在共享的UV图中进行编码,实现语义对齐,并通过2D卷积生成对抗网络实现联合建模。
  • 设计了一条可微渲染流水线,将真实图像投影到UV图上,从而实现端到端的2D监督训练。
  • 生成对抗网络的判别器使用掩码输入以处理遮挡问题,提升了对训练图像中不完整或部分可见情况的鲁棒性。
  • 通过在类别标签、属性或文本嵌入上条件化生成器和判别器,实现条件生成,可选地引入注意力机制以实现文本到部件的对齐。
  • 该框架采用标准的2D GAN架构(如StyleGAN)并适配至UV空间,无需渐进式生长即可生成高达512×512分辨率的输出。

实验结果

研究问题

  • RQ12D卷积生成对抗网络能否仅使用单视角2D监督生成高分辨率、逼真的3D纹理网格?
  • RQ2与基于3D或2D图像的方法相比,姿态无关的UV空间表示是否能实现更好的形状与外观解耦?
  • RQ3该模型能否在文本、属性或类别标签条件下实现可控的3D网格生成,并实现有意义的注意力定位?
  • RQ4在条件设置下,该方法与现有2D和3D GAN相比,在网格和纹理质量方面表现如何?
  • RQ5统一的评估框架能否分别度量网格和纹理保真度,从而更准确地评估3D生成质量?

主要发现

  • 在CUB鸟类重建任务中,该模型在3D重建基线上的FID得分为85.8,优于基线方法,确立了较强的下限基准。
  • 在CUB数据集中,该模型在条件文本到网格生成任务中,纹理FID为12.4,网格FID为15.6,展现出高质量的合成能力。
  • UV空间中的注意力机制成功定位到特定物体部件(如‘黄色冠羽’、‘红色面颊’),可视化结果证实了语义一致性。
  • 得益于UV空间中的精确语义对齐,该方法无需渐进式生长即可生成512×512高分辨率纹理。
  • 该框架实现了形状与外观的解耦控制,通过条件生成实验证明,颜色或部件身份等属性可独立调节。
  • 消融实验表明,UV空间表示和掩码判别器显著优于缺乏这些组件的基线方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。