Skip to main content
QUICK REVIEW

[论文解读] Inverting face embeddings with convolutional neural networks

Andrey Zhmoginov, M. Sandler|arXiv (Cornell University)|Jun 14, 2016
Generative Adversarial Networks and Image Synthesis参考文献 5被引用 52
一句话总结

本文提出一种方法,通过迭代梯度下降或训练好的前馈卷积神经网络,将FaceNet中的深度人脸嵌入反演为逼真且一致的人脸图像。主要贡献在于证明了简单的正则化技术(如总变差、拉普拉斯金字塔梯度和中间层监督)可在无需对抗训练的情况下实现高质量的图像重建,并通过单次前向传播网络实现实时推理。

ABSTRACT

Deep neural networks have dramatically advanced the state of the art for many areas of machine learning. Recently they have been shown to have a remarkable ability to generate highly complex visual artifacts such as images and text rather than simply recognize them. In this work we use neural networks to effectively invert low-dimensional face embeddings while producing realistically looking consistent images. Our contribution is twofold, first we show that a gradient ascent style approaches can be used to reproduce consistent images, with a help of a guiding image. Second, we demonstrate that we can train a separate neural network to effectively solve the minimization problem in one pass, and generate images in real-time. We then evaluate the loss imposed by using a neural network instead of the gradient descent by comparing the final values of the minimized loss function.

研究动机与目标

  • 解决从低维人脸嵌入重建逼真人脸图像的挑战,这些嵌入通常用于人脸识别。
  • 克服逆问题中的歧义性,即多个不同图像可能映射到同一嵌入向量。
  • 开发一种方法,生成具有一致性、逼真的人脸图像,可控姿态和朝向,避免随机或噪声重建。
  • 通过训练前馈神经网络来一步求解最小化问题,实现人脸图像的实时重建。
  • 证明非对抗性方法可产生与迭代优化相当的高质量重建结果。

提出的方法

  • 使用预训练的FaceNet模型从人脸图像中提取128维归一化嵌入。
  • 将重建问题表述为损失最小化问题:最小化网络输出嵌入与目标嵌入之间的距离,同时引入正则化项。
  • 应用总变差(TV)损失和拉普拉斯金字塔梯度归一化,以增强图像平滑性并减少噪声。
  • 引入重建结果与引导图像之间中间特征图的ℓ₂距离,以保留姿态、朝向和面部结构。
  • 训练一个独立的前馈卷积神经网络,直接将目标嵌入和引导图像映射为重建的人脸图像,从而绕过迭代优化。
  • 使用与迭代重建目标一致的联合损失函数优化前馈网络,实现单次前向推理。

实验结果

研究问题

  • RQ1深度神经网络是否能在不使用对抗训练的情况下,有效将人脸嵌入反演为逼真且一致的人脸图像?
  • RQ2简单正则化技术(如TV损失、特征匹配)与更复杂的生成模型相比,在生成高质量重建结果方面表现如何?
  • RQ3前馈网络在多大程度上能够学习逼近迭代优化过程的人脸嵌入反演解?
  • RQ4重建图像的质量与嵌入空间距离及与原始人脸的余弦相似度之间有何关联?
  • RQ5训练好的前馈网络能否泛化到未见过的嵌入,并在视频序列中保持身份一致性地迁移面部外观?

主要发现

  • 采用正则化的迭代梯度下降方法可生成高度逼真且一致的人脸重建结果,其姿态和朝向与引导图像高度匹配。
  • 前馈网络的平均损失值比迭代优化高1.6倍,但生成结果在感知质量上更优,表明优化保真度与视觉质量之间存在权衡。
  • 仅使用50个滤波器,前馈网络即达到0.752的归一化嵌入点积,超过通常在同一个人真实照片之间观察到的平均值0.6。
  • 该方法成功实现了从嵌入到视频序列的人脸迁移,通过在不同姿态的多帧图像上应用同一嵌入,生成了连贯的动画。
  • 即使嵌入几乎完全相同,重建结果仍可区分,表明该方法能捕捉细微的身份特异性细节。
  • 缺乏对抗训练并未影响性能;相反,嵌入空间似乎足够完整,可通过适当的正则化实现高保真重建。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。