[论文解读] Global Texture Enhancement for Fake Face Detection in the Wild
本文提出Gram-Net,一种新颖的CNN架构,通过可学习的Gram模块捕捉全局纹理表征,提升伪造人脸检测性能。Gram-Net能够捕获在不同生成对抗网络(GAN)间保持不变、且对图像失真具有鲁棒性的长程纹理统计特征,从而在跨GAN泛化以及检测编辑后或自然生成的伪造图像方面达到最先进性能,在未见GAN上的准确率提升超过10%,在BigGAN生成的自然图像上也提升10%以上。
Generative Adversarial Networks (GANs) can generate realistic fake face images that can easily fool human beings.On the contrary, a common Convolutional Neural Network(CNN) discriminator can achieve more than 99.9% accuracyin discerning fake/real images. In this paper, we conduct an empirical study on fake/real faces, and have two important observations: firstly, the texture of fake faces is substantially different from real ones; secondly, global texture statistics are more robust to image editing and transferable to fake faces from different GANs and datasets. Motivated by the above observations, we propose a new architecture coined as Gram-Net, which leverages global image texture representations for robust fake image detection. Experimental results on several datasets demonstrate that our Gram-Net outperforms existing approaches. Especially, our Gram-Netis more robust to image editings, e.g. down-sampling, JPEG compression, blur, and noise. More importantly, our Gram-Net generalizes significantly better in detecting fake faces from GAN models not seen in the training phase and can perform decently in detecting fake natural images.
研究动机与目标
- 理解真实人脸与GAN生成伪造人脸之间纹理的内在差异。
- 探究基于CNN的检测器为何在真实世界图像失真(如压缩、模糊、缩放)下失效。
- 提升检测器在不同GAN模型及未见图像源上的鲁棒性与泛化能力。
- 开发一种能够捕捉跨不同GAN架构与图像操作保持不变的全局纹理统计特征的方法。
提出的方法
- 提出Gram模块,一种可学习的层,用于从多个语义层级的特征图中计算全局纹理表征。
- 将Gram模块集成到CNN主干网络中,以补充局部卷积特征的全局纹理上下文信息。
- 使用灰度共生矩阵(GLCM)统计量分析并验证全局纹理特征在各种图像失真下的鲁棒性。
- 在多样化的GAN生成人脸与真实人脸数据集上端到端训练Gram-Net,涵盖StyleGAN、PGGAN、DCGAN、DRAGAN和StarGAN。
- 直接将训练好的模型应用于BigGAN生成的自然伪造图像检测,无需微调,验证零样本泛化能力。
- 在判别器中插入Gram模块对StyleGAN进行微调,以验证所提纹理表征的可迁移性与一致性。
实验结果
研究问题
- RQ1真实人脸与GAN生成伪造人脸的纹理统计特征有何不同?
- RQ2为何现有基于CNN的伪造人脸检测器在图像被编辑(如压缩或模糊)后会失效?
- RQ3与局部特征相比,全局纹理表征是否在不同GAN架构和图像失真下更具不变性?
- RQ4一种显式建模全局纹理统计特征的深度学习模型,是否能更好地泛化到未见GAN及自然伪造图像?
主要发现
- Gram-Net在检测未见GAN模型(如StarGAN)生成的伪造人脸时,相比基线模型准确率提升10%。
- 在模糊图像上检测性能提升15%,在噪声图像上提升13%,在缩放图像上提升10%,在JPEG压缩图像上提升9%。
- Gram-Net在BigGAN生成的自然伪造图像上表现出显著泛化能力,在ImageNet与BigGAN数据集上的准确率达到80.29%,比次优方法高出10%。
- 即使在训练阶段将Gram模块插入GAN判别器中,Gram-Net仍保持优越性能,证实了所提纹理表征的鲁棒性。
- 跨数据集评估表明,当在更真实的图像集(如FFHQ)上训练、在较不真实的图像集(如CelebA-HQ)上测试时,Gram-Net优于基线方法。
- 基于GLCM的低级纹理分析表明,真实图像在所有测量距离下均表现出比伪造图像更强的纹理对比度,验证了本方法的核心假设。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。