QUICK REVIEW

[论文解读] Decoupling Forgery Semantics for Generalizable Deepfake Detection

Ye Wei, Xinan He|arXiv (Cornell University)|Jun 14, 2024

Digital Media Forensic Detection被引用 6

一句话总结

本文提出了带自适应高通特征的语义解耦框架，以及两阶段训练策略，以提升跨数据集的深度伪造检测的泛化能力。

ABSTRACT

In this paper, we propose a novel method for detecting DeepFakes, enhancing the generalization of detection through semantic decoupling. There are now multiple DeepFake forgery technologies that not only possess unique forgery semantics but may also share common forgery semantics. The unique forgery semantics and irrelevant content semantics may promote over-fitting and hamper generalization for DeepFake detectors. For our proposed method, after decoupling, the common forgery semantics could be extracted from DeepFakes, and subsequently be employed for developing the generalizability of DeepFake detectors. Also, to pursue additional generalizability, we designed an adaptive high-pass module and a two-stage training strategy to improve the independence of decoupled semantics. Evaluation on FF++, Celeb-DF, DFD, and DFDC datasets showcases our method's excellent detection and generalization performance. Code is available at: https://github.com/leaffeall/DFS-GDD.

研究动机与目标

解决对无关内容语义的过拟合，该过拟合损害泛化能力。
分离在不同 DeepFake 技术中可用的共同伪造语义。
利用高频特征加强伪造线索，同时减少对颜色与纹理的依赖。
开发两阶段训练方案，以提高解耦语义的独立性。

提出的方法

使用 Encoder1 及多尺度高频特征（MHFE）与融合（MHFF）提取无关内容和所有伪造语义。
引入自适应高通滤波器（AHF），高效捕捉高频线索。
通过 Encoder2 与双通道解码器将伪造语义分为共同（Fc）和独特（Fu）分量。
使用两个检测器来识别 Fu 和 Fc，并通过交叉重建和自重建损失来强化解耦。
使用对比损失来强化真实/伪造与伪造类型之间的表征分离。
分两阶段训练：阶段1解耦 Irrelevant Content 与 All Forgery Semantics；阶段2进一步将 Fu 和 Fc 解耦，并通过多种损失项进行优化。

实验结果

研究问题

RQ1语义解耦是否能够将共同伪造线索与独特及无关内容分离，以改善跨域检测？
RQ2多尺度高频特征和自适应高通滤波是否能超越基于 RGB 的线索提升泛化？
RQ3带重建和对比损失的两阶段训练是否改善伪造语义的独立性？
RQ4与最先进的检测器相比，所提方法在同域与跨域的表现如何？

主要发现

方法	F2F AUC (%)	FS AUC (%)	NT AUC (%)	DF AUC (%)	FST AUC (%)
ResNet-50	93.76	93.30	83.43	93.34	92.25
EfficientNet-B4	97.41	97.10	90.87	97.02	96.28
Xception	96.92	95.85	94.00	97.47	95.62
SRM	96.49	97.59	92.66	97.64	97.55
F3-Net	96.56	94.14	93.15	97.67	96.80
UCF	97.12	97.46	91.99	97.40	97.31
Lin et al.	98.37	97.97	95.06	98.86	98.41
Ours	99.15	99.36	96.23	99.29	99.13

该方法在 FF++ 子数据集上实现了同域AUC的最新水平，例如 99.15 (F2F)，99.36 (FS)，96.23 (NT)，99.29 (DF)，99.13 (FST)。
在跨域评估中，该方法达到 98.58 (FF++)，76.94 (Celeb-DF)，83.02 (DFD)，以及 62.55 (DFDC) AUC，超越了若干基线。
消融显示 RGB+高频融合结合 MHFE 与 MHFF 可获得最佳跨域结果（Fusion + MHFE + MHFF: 98.58/76.94/83.02/62.55）。
Grad-CAM 可视化表明所提出的方法在各模型上始终聚焦于共同的 DeepFake 线索，相较于 Xception 与 UCF 基线提高了泛化。
消融研究证实多尺度高频模块和语义解耦策略的有效性与互补性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。