[论文解读] DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection
介绍 DeeperForensics-1.0,一项大规模、高质量、多样化的脸部伪造数据集,包含 60,000 个视频,并提出用于高保真脸部换脸的 DF-VAE;包含一个隐藏测试集并对若干基线进行基准测试。
We present our on-going effort of constructing a large-scale benchmark for face forgery detection. The first version of this benchmark, DeeperForensics-1.0, represents the largest face forgery detection dataset by far, with 60,000 videos constituted by a total of 17.6 million frames, 10 times larger than existing datasets of the same kind. Extensive real-world perturbations are applied to obtain a more challenging benchmark of larger scale and higher diversity. All source videos in DeeperForensics-1.0 are carefully collected, and fake videos are generated by a newly proposed end-to-end face swapping framework. The quality of generated videos outperforms those in existing datasets, validated by user studies. The benchmark features a hidden test set, which contains manipulated videos achieving high deceptive scores in human evaluations. We further contribute a comprehensive study that evaluates five representative detection baselines and make a thorough analysis of different settings.
研究动机与目标
- 提供一个用于现实场景下脸部伪造检测的大规模、高质量数据集,以缩小与真实场景之间的差距。
- 通过扰动引入多样性,模拟真实世界条件。
- 提出并验证一个高保真端到端的脸部换脸框架(DF-VAE)。
- 在具有挑战性的隐藏测试集上对伪造检测基线进行基准测试,以评估对真实世界的鲁棒性。
提出的方法
- 在受控室内环境中从 100 位同意参与者处收集高分辨率 1920x1080 的源视频。
- 开发 DF-VAE,通过结构/外观的分离实现鲁棒、可扩展的人脸再现和多对多换脸。
- 引入 MAdaIN(masked adaptive instance normalization)用于在空间上引导风格匹配并融合换脸。
- 通过光流为基础的损失将当前帧与前一帧连接起来,加入时序一致性约束以减少闪烁。
- 对操控视频应用七种扰动类型、五种强度水平,以提升真实感和多样性。
- 设有一个隐藏测试集,包含 400 个高质量、失真丰富的操控视频,用以评估超出训练分布的鲁棒性。
实验结果
研究问题
- RQ1一个数据集在多大规模和多样性上才足以更好地训练适用于真实场景的伪造检测器?
- RQ2一个高保真、可扩展的脸部换脸框架(DF-VAE)是否能够生成适合基准测试的真实 manipulated 视频?
- RQ3常见的真实世界扰动如何影响基于视频的伪造检测器性能?
- RQ4在隐藏的、分布偏移的测试集中进行评估是否能揭示当前检测器在标准分割之外的差距?
主要发现
- DeeperForensics-1.0 包含 60,000 个视频(共 17.6 百万帧),其中 50,000 个真实视频和 10,000 个伪造视频,并引入 7 种扰动类型在 5 个强度水平下。
- DF-VAE 通过结构/外观分离与 MAdaIN 融合实现多对多脸部再现,显著降低风格不匹配和边界伪影。
- 人类感知研究表明,尽管规模更大,DeeperForensics-1.0 相较于先前数据集被认为更现实。
- 在标准集上训练的基线视频伪造检测器在隐藏测试集上的鲁棒性表现各异,凸显分布偏移评估的重要性。
- I3D 在在标准 DeeperForensics-1.0 集上训练时在隐藏测试中的准确率最高,凸显时序线索在检测中的作用。
- 隐藏测试集(400 个视频)和扰动丰富的操控强调了现有检测器的差距,并强调需要在真实世界基准测试中提升鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。