QUICK REVIEW

[论文解读] Neural Face Editing with Intrinsic Image Disentangling

Zhixin Shu, Ersin Yumer|arXiv (Cornell University)|Apr 13, 2017

Face recognition and analysis参考文献 30被引用 36

一句话总结

本文提出了一种端到端的基于生成对抗网络（GAN）的框架，通过网络内嵌的基于物理的图像形成模型，从野外图像中解耦内在的人脸属性——反照率、法线、光照和透明度蒙版。通过在形状、反照率和光照上施加先验，该方法实现了语义上合理且可控的编辑，例如重新光照、表情操控和年龄变化，相比以往方法在真实感和身份保持方面表现更优。

ABSTRACT

Traditional face editing methods often require a number of sophisticated and task specific algorithms to be applied one after the other --- a process that is tedious, fragile, and computationally intensive. In this paper, we propose an end-to-end generative adversarial network that infers a face-specific disentangled representation of intrinsic face properties, including shape (i.e. normals), albedo, and lighting, and an alpha matte. We show that this network can be trained on "in-the-wild" images by incorporating an in-network physically-based image formation module and appropriate loss functions. Our disentangling latent representation allows for semantically relevant edits, where one aspect of facial appearance can be manipulated while keeping orthogonal properties fixed, and we demonstrate its use for a number of facial editing applications.

研究动机与目标

解决传统人脸编辑方法依赖复杂、任务特定的流水线且缺乏泛化能力的局限性。
从非约束、野外的图像中学习一个解耦、紧凑且语义明确的人脸外观潜在流形。
通过操纵单个内在分量同时保持其他分量不变，实现端到端、语义上合理的编辑（例如重新光照、表情变化、年龄变化）。
通过在网络架构中嵌入可微分的、基于物理的渲染模块，提升解耦效果和真实感。
在无需显式3D监督或昂贵数据采集的情况下支持编辑，利用弱监督和统计先验。

提出的方法

网络采用编码器-解码器架构，并通过瓶颈层学习人脸属性（反照率、法线、光照（球谐函数）和透明度蒙版）的解耦潜在表示。
网络内嵌的前向渲染模块使用基于图像形成物理的可微分着色模型，从推断出的内在分量重建图像。
施加统计先验：对法线使用可变形模型先验，对反照率使用基于Retinex的先验，对光照使用低频球谐函数模型。
在重建图像上应用对抗损失，以提升感知质量和真实感。
引入批量白平衡着色（BWS）损失，以强化颜色一致性并改善反照率与光照及阴影的解耦。
显式预测透明度蒙版，以将人脸与任意背景分离，从而在保留背景细节的同时实现对前景的针对性编辑。

实验结果

研究问题

RQ1深度生成模型能否在无3D监督的情况下，从未受约束的野外图像中学习到解耦的、基于物理的内在人脸属性表示？
RQ2网络内嵌的可微分渲染是否能改善解耦并实现真实且语义合理的编辑？
RQ3物理先验（可变形模型、Retinex、球谐函数）的组合在引导人脸属性解耦方面的有效性如何？
RQ4所学习的潜在空间是否能通过简单地遍历或操纵特定潜在向量，支持多样化的编辑任务（如重新光照、表情编辑和年龄变化）？
RQ5与标准自编码器方法相比，该方法在身份保持和生成真实编辑结果方面是否表现更优？

主要发现

该模型能够从未受约束的野外图像中，通过解耦的内在分量成功重建人脸图像，且在感知质量与身份保持方面表现优异。
通过将源图像的光照向量转移到目标图像，同时保持目标的反照率、法线和细节，实现了逼真的光照转移。
通过在反照率和法线分量的潜在空间中进行遍历，可实现自然的微笑表情编辑，且通过调整遍历正则化参数λ可生成更强烈的表情。
通过将反照率和法线的潜在空间朝向对应老年面容的模式进行遍历，可有效模拟年龄变化，生成逼真的年龄增长效果，同时保留姿态、眼镜和光照条件。
批量白平衡着色（BWS）损失的引入显著提升了解耦效果，尤其在分离反照率与光照影响方面表现突出，这一结果通过定性对比和消融研究得到验证。
该模型可使用相同的架构和权重泛化于多种多样的编辑任务，证明了所学习的解耦流形具有鲁棒性与表达力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。