Skip to main content
QUICK REVIEW

[论文解读] MeshGAN: Non-linear 3D Morphable Models of Faces

Shiyang Cheng, Michael M. Bronstein|arXiv (Cornell University)|Mar 25, 2019
Generative Adversarial Networks and Image Synthesis参考文献 66被引用 47
一句话总结

MeshGAN 在直接在3D面部网格上实现一个内在 GAN,以非线性方式建模身份与表情,在真实感和多样性方面超过 CoMA。

ABSTRACT

Generative Adversarial Networks (GANs) are currently the method of choice for generating visual data. Certain GAN architectures and training methods have demonstrated exceptional performance in generating realistic synthetic images (in particular, of human faces). However, for 3D object, GANs still fall short of the success they have had with images. One of the reasons is due to the fact that so far GANs have been applied as 3D convolutional architectures to discrete volumetric representations of 3D objects. In this paper, we propose the first intrinsic GANs architecture operating directly on 3D meshes (named as MeshGAN). Both quantitative and qualitative results are provided to show that MeshGAN can be used to generate high-fidelity 3D face with rich identities and expressions.

研究动机与目标

  • 推动直接在网格拓扑上生成高保真度的3D脸部网格,而非体素/点表示。
  • 开发一个内在 GAN 架构(MeshGAN),使用谱网格卷积来分别建模身份和表情。
  • 证明 MeshGAN 相较于先前的自编码器方法,能够产生更高质量、更多样化的3D脸部。
  • 在大规模3D人脸数据集(3dMD、4DFAB)上提供定量评估,包括泛化、特异性和 FID 指标。

提出的方法

  • 将3D脸部表示为固定拓扑网格,使用基于拉普拉斯算子在网格上的谱卷积。
  • 采用 BEGAN 风格的 GAN,其中判别器是一个自编码器,对网格数据使用 L1 损失。
  • 实现 Generator/Decoder,使用基于 Chebyshev 多项式的图卷积来学习身份和表情的非线性 3DMM 空间。
  • 使用4级网格下采样/上采样方案,结合重心插值来处理多分辨率网格合成。
  • 使用 BeGAN 平衡机制进行训练,gamma=0.7 以促进多样性,在判别器瓶颈处使用64维潜在嵌入。
  • 使用非刚性 ICP 对数据进行预处理,使其与一个5,036-顶点模板建立密集对应,并进行标志物引导对齐。

实验结果

研究问题

  • RQ1直接在3D网格上运行的 intrinsic GAN 是否能够生成高保真脸部并具可控的身份与表情?
  • RQ2与先前的网格自编码器方法相比,MeshGAN 是否在3D脸部的泛化、特异性和样本多样性方面具有更好表现?
  • RQ3在 MeshGAN 中,身份与表情潜在空间在插值和外推时的表现如何?
  • RQ4训练选择(如 BEGAN 平衡、Chebyshev 滤波器)对生成网格的质量和多样性有何影响?

主要发现

  • MeshGAN 在身份和表情任务上实现了具有竞争力的泛化能力,其中 MeshGAN-ID 的泛化为 0.465 mm,对比 CoMA-ID 的 0.442 mm。
  • MeshGAN 在特异性方面表现更好,且 FID 得分显著低于 CoMA,表明生成网格的真实感和多样性更高。
  • 对于身份模型,MeshGAN-ID 获得 10.82 FID,CoMA-ID 为 14.24;对于表情模型,MeshGAN-EXP 达到 13.59 FID,而 CoMA-EXP 为 22.43。
  • 定性结果显示,与 CoMA 相比,MeshGAN 展示出更丰富的面部细节和更可信的外推,尤其在种族、年龄和肌肉运动方面。
  • 外推实验表明,当潜在向量超出训练范围时,MeshGAN 能保持有意义的表情,而 CoMA 会产生畸变结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。