[论文解读] DeepFake Detection Based on the Discrepancy Between the Face and its Context
该论文提出了一种新颖的深度伪造检测方法,通过检测被操纵的人脸区域与其未改变的上下文(如头发、耳朵、颈部)之间的差异来识别人脸替换图像。该方法使用两个独立的人脸识别网络——一个用于人脸,另一个用于上下文——通过比较身份嵌入来揭示不匹配,从而在 FaceForensics++、Celeb-DF-v2 和 DFDC 基准测试中实现最先进性能,并能泛化至未见过的操纵方法。
We propose a method for detecting face swapping and other identity manipulations in single images. Face swapping methods, such as DeepFake, manipulate the face region, aiming to adjust the face to the appearance of its context, while leaving the context unchanged. We show that this modus operandi produces discrepancies between the two regions. These discrepancies offer exploitable telltale signs of manipulation. Our approach involves two networks: (i) a face identification network that considers the face region bounded by a tight semantic segmentation, and (ii) a context recognition network that considers the face context (e.g., hair, ears, neck). We describe a method which uses the recognition signals from our two networks to detect such discrepancies, providing a complementary detection signal that improves conventional real vs. fake classifiers commonly used for detecting fake images. Our method achieves state of the art results on the FaceForensics++, Celeb-DF-v2, and DFDC benchmarks for face manipulation detection, and even generalizes to detect fakes produced by unseen methods.
研究动机与目标
- 解决由逼真的人脸替换媒体引发的日益严重的社会威胁,这些媒体会欺骗观众并破坏人们对视觉证据的信任。
- 通过利用当前深度伪造方法固有的设计局限性,检测身份被操纵的人脸,特别是通过人脸替换方式。
- 开发一种与现有真实/伪造分类器互补的检测信号,基于人脸与上下文区域之间的身份不匹配。
- 通过聚焦于结构不一致而非特定生成技术的伪影,提高鲁棒性和泛化能力。
- 构建一种即使在深度伪造质量提高、伪影减少的情况下仍保持有效的检测框架。
提出的方法
- 该方法采用两个专用的人脸识别网络:一个在紧密分割的人脸区域上训练(E_f),另一个在周围上下文区域上训练(E_c),两者均使用 Xception 架构。
- 人脸分割通过基于 U-Net 的网络完成,数据增强包括随机旋转、色彩抖动、水平翻转和高斯模糊。
- 从人脸和上下文网络提取的身份嵌入被用于比较,以检测不匹配,形成指示操纵的差异信号。
- 将差异信号与传统的真假分类器结合,以提升检测性能,其中身份网络在 VGGFace2 上训练,整个流水线在 FaceForensics++ 上微调。
- 系统采用对抗训练方式端到端训练,使用判别器 D,推理阶段在单张 V100 GPU 上达到 81.5–90.6 fps 的速度。
- 该方法无需事先知晓源身份或目标身份,完全依赖于人脸与上下文之间身份信号的一致性。
实验结果
研究问题
- RQ1人脸与其周围上下文之间的差异能否作为检测人脸替换图像的可靠信号?
- RQ2基于差异的检测方法是否能泛化至不同的人脸操纵技术,包括未见过的方法?
- RQ3与基于伪影的检测方法相比,人脸-上下文身份不匹配信号在有效性上如何?
- RQ4差异信号能否与传统的真实/伪造分类器有效结合,以提升整体检测性能?
- RQ5所提出的方法是否对高质量、无伪影的深度伪造具有鲁棒性,这些伪造能逃避传统检测技术?
主要发现
- 该方法在 FaceForensics++ 基准测试中达到最先进性能,检测准确率超过先前方法。
- 在 Celeb-DF-v2 数据集上也实现了最先进结果,表明其对多样化真实世界人脸操纵数据的强大泛化能力。
- 该模型能有效检测由未见过的操纵方法生成的伪造图像,表明对分布偏移具有鲁棒性。
- 差异信号与传统真实/伪造分类器具有互补性,结合后可显著提升整体检测性能。
- 系统具备极高的推理速度,单张 V100 GPU 上全流水线运行速度达 81.5–90.6 fps,支持实时部署。
- 即使深度伪造伪影被最小化,该方法依然有效,因其依赖于结构不一致而非视觉伪影。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。