[论文解读] Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues
该论文提出 F3-Net,一种频率感知的双流框架,使用 Frequency-aware Decomposition (FAD) 与 Local Frequency Statistics (LFS),以及 MixBlock 跨注意力模块来检测人脸伪造,在 FaceForensics++ 上取得了最先进的结果,特别是在低质量压缩下。
As realistic facial manipulation technologies have achieved remarkable progress, social concerns about potential malicious abuse of these technologies bring out an emerging research topic of face forgery detection. However, it is extremely challenging since recent advances are able to forge faces beyond the perception ability of human eyes, especially in compressed images and videos. We find that mining forgery patterns with the awareness of frequency could be a cure, as frequency provides a complementary viewpoint where either subtle forgery artifacts or compression errors could be well described. To introduce frequency into the face forgery detection, we propose a novel Frequency in Face Forgery Network (F3-Net), taking advantages of two different but complementary frequency-aware clues, 1) frequency-aware decomposed image components, and 2) local frequency statistics, to deeply mine the forgery patterns via our two-stream collaborative learning framework. We apply DCT as the applied frequency-domain transformation. Through comprehensive studies, we show that the proposed F3-Net significantly outperforms competing state-of-the-art methods on all compression qualities in the challenging FaceForensics++ dataset, especially wins a big lead upon low-quality media.
研究动机与目标
- 在 RGB 空间难以察觉的压缩与微小伪影下,推动鲁棒的人脸伪造检测。
- 引入能够捕捉高频伪影与压缩误差的频率感知线索。
- 提出一个双流架构,使从频率分解分量和局部频率统计中协同学习。
提出的方法
- 提出 Frequency-aware Decomposition (FAD),将频域划分为可学习的频带并重构多个频率感知的图像分量。
- 提出 Local Frequency Statistics (LFS),通过应用 Sliding Window DCT (SWDCT) 提取局部频率响应并对每个频带聚合均值响应。
- 使用一个双流主干网(Xception)分别处理 FAD 与 LFS,通过 MixBlock 跨注意力进行渐进融合。
- 端到端训练,使用交叉熵损失,在 FaceForensics++ 的 LQ/HQ/RAW 设置上评估。
实验结果
研究问题
- RQ1频率感知的线索是否能够在不同压缩质量下提升伪造检测性能?
- RQ2频率感知分解分量与局部频率统计信息是否提供互补信息,融合模块能够利用以实现更好的检测?
- RQ3基于跨注意力的融合(MixBlock)是否能增强两流交互,从而超越基于 RGB 的基线?
- RQ4在 FaceForensics++ 的不同操控类型下,所提出的方法表现如何?
- RQ5该方法是否可扩展到视频级框架,超越单帧分析?
主要发现
- F3-Net 在 FaceForensics++ 的 LQ、HQ、RAW 设置上均超越现有方法,尤其在低质量媒体上有显著提升。
- 消融研究表明 FAD(频率感知分解)与 LFS(局部频率统计)各自对性能有贡献,MixBlock 进一步带来提升。
- 高频分量对伪造检测尤为信息丰富;使用全部频带可获得最佳结果。
- 带有跨注意力融合的双流框架在 ROC 曲线特性上表现更好,尤其在较低假阳性率下。
- SlowFast 主干的视频扩展进一步提高结果,在若干指标上达到最佳。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。