QUICK REVIEW

[论文解读] Global Texture Enhancement for Fake Face Detection in the Wild

Zhengzhe Liu, Xiaojuan Qi|arXiv (Cornell University)|Feb 1, 2020

Generative Adversarial Networks and Image Synthesis参考文献 35被引用 27

一句话总结

本文提出Gram-Net，一种新颖的CNN架构，通过可学习的Gram模块捕捉全局纹理表征，提升伪造人脸检测性能。Gram-Net能够捕获在不同生成对抗网络（GAN）间保持不变、且对图像失真具有鲁棒性的长程纹理统计特征，从而在跨GAN泛化以及检测编辑后或自然生成的伪造图像方面达到最先进性能，在未见GAN上的准确率提升超过10%，在BigGAN生成的自然图像上也提升10%以上。

ABSTRACT

Generative Adversarial Networks (GANs) can generate realistic fake face images that can easily fool human beings.On the contrary, a common Convolutional Neural Network(CNN) discriminator can achieve more than 99.9% accuracyin discerning fake/real images. In this paper, we conduct an empirical study on fake/real faces, and have two important observations: firstly, the texture of fake faces is substantially different from real ones; secondly, global texture statistics are more robust to image editing and transferable to fake faces from different GANs and datasets. Motivated by the above observations, we propose a new architecture coined as Gram-Net, which leverages global image texture representations for robust fake image detection. Experimental results on several datasets demonstrate that our Gram-Net outperforms existing approaches. Especially, our Gram-Netis more robust to image editings, e.g. down-sampling, JPEG compression, blur, and noise. More importantly, our Gram-Net generalizes significantly better in detecting fake faces from GAN models not seen in the training phase and can perform decently in detecting fake natural images.

研究动机与目标

理解真实人脸与GAN生成伪造人脸之间纹理的内在差异。
探究基于CNN的检测器为何在真实世界图像失真（如压缩、模糊、缩放）下失效。
提升检测器在不同GAN模型及未见图像源上的鲁棒性与泛化能力。
开发一种能够捕捉跨不同GAN架构与图像操作保持不变的全局纹理统计特征的方法。

提出的方法

提出Gram模块，一种可学习的层，用于从多个语义层级的特征图中计算全局纹理表征。
将Gram模块集成到CNN主干网络中，以补充局部卷积特征的全局纹理上下文信息。
使用灰度共生矩阵（GLCM）统计量分析并验证全局纹理特征在各种图像失真下的鲁棒性。
在多样化的GAN生成人脸与真实人脸数据集上端到端训练Gram-Net，涵盖StyleGAN、PGGAN、DCGAN、DRAGAN和StarGAN。
直接将训练好的模型应用于BigGAN生成的自然伪造图像检测，无需微调，验证零样本泛化能力。
在判别器中插入Gram模块对StyleGAN进行微调，以验证所提纹理表征的可迁移性与一致性。

实验结果

研究问题

RQ1真实人脸与GAN生成伪造人脸的纹理统计特征有何不同？
RQ2为何现有基于CNN的伪造人脸检测器在图像被编辑（如压缩或模糊）后会失效？
RQ3与局部特征相比，全局纹理表征是否在不同GAN架构和图像失真下更具不变性？
RQ4一种显式建模全局纹理统计特征的深度学习模型，是否能更好地泛化到未见GAN及自然伪造图像？

主要发现

Gram-Net在检测未见GAN模型（如StarGAN）生成的伪造人脸时，相比基线模型准确率提升10%。
在模糊图像上检测性能提升15%，在噪声图像上提升13%，在缩放图像上提升10%，在JPEG压缩图像上提升9%。
Gram-Net在BigGAN生成的自然伪造图像上表现出显著泛化能力，在ImageNet与BigGAN数据集上的准确率达到80.29%，比次优方法高出10%。
即使在训练阶段将Gram模块插入GAN判别器中，Gram-Net仍保持优越性能，证实了所提纹理表征的鲁棒性。
跨数据集评估表明，当在更真实的图像集（如FFHQ）上训练、在较不真实的图像集（如CelebA-HQ）上测试时，Gram-Net优于基线方法。
基于GLCM的低级纹理分析表明，真实图像在所有测量距离下均表现出比伪造图像更强的纹理对比度，验证了本方法的核心假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。