QUICK REVIEW

[论文解读] Complement Face Forensic Detection and Localization with FacialLandmarks

Kritaphat Songsri-in, Stefanos Zafeiriou|arXiv (Cornell University)|Oct 12, 2019

Face recognition and analysis参考文献 34被引用 26

一句话总结

本文提出了首个大规模人脸伪造定位数据集，包含130万张带有二值掩码标注的图像，涵盖真实、GAN生成及编辑后的人脸。提出了一种基于空间面部关键点的双分支XceptionNet模型，联合优化检测与定位任务，在低质量视频上实现最先进性能，尤其在定位准确率方面达到90.82%的IoU。

ABSTRACT

Recently, Generative Adversarial Networks (GANs) and image manipulating methods are becoming more powerful and can produce highly realistic face images beyond human recognition which have raised significant concerns regarding the authenticity of digital media. Although there have been some prior works that tackle face forensic classification problem, it is not trivial to estimate edited locations from classification predictions. In this paper, we propose, to the best of our knowledge, the first rigorous face forensic localization dataset, which consists of genuine, generated, and manipulated face images. In particular, the pristine parts contain face images from CelebA and FFHQ datasets. The fake images are generated from various GANs methods, namely DCGANs, LSGANs, BEGANs, WGAN-GP, ProGANs, and StyleGANs. Lastly, the edited subset is generated from StarGAN and SEFCGAN based on free-form masks. In total, the dataset contains about 1.3 million facial images labelled with corresponding binary masks. Based on the proposed dataset, we demonstrated that explicit adding facial landmarks information in addition to input images improves the performance. In addition, our proposed method consists of two branches and can coherently predict face forensic detection and localization to outperform the previous state-of-the-art techniques on the newly proposed dataset as well as the faceforecsic++ dataset especially on low-quality videos.

研究动机与目标

解决当前缺乏大规模、带掩码标注的人脸伪造定位数据集的问题，特别是针对部分编辑人脸的情况。
克服现有方法仅能分类图像为真实或伪造，而无法定位篡改区域的局限性。
通过将空间面部关键点特征整合到深度学习模型中，提升定位性能，从而增强法医学分析能力。
开发一个统一模型，联合预测人脸伪造检测与定位任务，以提升在低质量视频输入下的鲁棒性。
利用迁移学习与多任务学习，为未来在人脸伪造检测与定位领域的研究建立强大基线。

提出的方法

构建一个包含130万张图像的大规模人脸伪造数据集，涵盖原始图像（CelebA, FFHQ）、GAN生成图像（DCGAN, StyleGAN等）以及编辑图像（StarGAN, SEFCGAN等），每张图像均附带二值掩码标注。
设计一种双分支XceptionNet架构：一个分支用于分类（真实 vs. 伪造），另一个分支用于分割（掩码预测），支持联合训练。
将空间面部关键点特征作为辅助输入，以增强特征表示并提升定位准确率。
通过多任务学习，在训练过程中联合优化分类头与定位头，以提升泛化能力与特征对齐效果。
利用预训练的XceptionNet进行迁移学习，以利用ImageNet中的特征并将其适配至伪造检测与定位任务。
在训练过程中应用整体损失组合策略，使分类与定位预测联合优化，以提升模型一致性与整体性能。

实验结果

研究问题

RQ1与无分割标签的现有数据集相比，大规模带掩码标注的数据集是否能显著提升人脸伪造定位模型的性能？
RQ2在人脸伪造任务中，引入空间面部关键点信息是否能提升深度学习模型的检测与定位准确率？
RQ3一种联合优化分类与定位任务的双分支网络架构，是否能优于单任务模型，在伪造人脸检测与定位任务中表现更优？
RQ4所提方法在不同视频质量等级下的性能表现如何，特别是在伪造痕迹不明显的低质量场景中？
RQ5在像素级信号退化的低质量视频场景中，面部关键点在多大程度上提升了模型的鲁棒性？

主要发现

在FaceForensic++数据集上，该方法在高质量视频上实现96.58%的二值检测准确率，在低质量视频上（压缩率23）达到89.33%，在低质量设置下超越先前最先进方法。
在所提出的数据集上，模型实现99.20%的人脸伪造二值检测（FBD）准确率，若使用掩码预测则达到99.25%，表现出强劲的分类性能。
在低质量视频中，模型实现90.82%的IoU用于人脸伪造定位，优于基线XceptionNet（90.40%）及其他最先进方法。
消融实验表明，添加面部关键点特征可提升所有指标性能，相比无关键点的模型，FBD准确率提升0.32个百分点，定位准确率提升0.39个百分点。
双分支架构通过联合训练，在所有评估任务中均优于单分支模型，包括人脸类型分类（98.67%）与来源分类（98.27%）。
定性结果表明，模型能准确定位篡改区域，热力图显示预测掩码与真实掩码高度重叠，仅在涉及Face2Face编辑的模糊案例中存在偏差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。