[论文解读] The DeepFake Detection Challenge (DFDC) Dataset
本文介绍 DFDC 数据集与 Kaggle 竞赛,详细描述数据集规模、构建方法、增强及基线结果,展示对真实 Deepfake 的泛化能力。
Deepfakes are a recent off-the-shelf manipulation technique that allows anyone to swap two identities in a single video. In addition to Deepfakes, a variety of GAN-based face swapping methods have also been published with accompanying code. To counter this emerging threat, we have constructed an extremely large face swap video dataset to enable the training of detection models, and organized the accompanying DeepFake Detection Challenge (DFDC) Kaggle competition. Importantly, all recorded subjects agreed to participate in and have their likenesses modified during the construction of the face-swapped dataset. The DFDC dataset is by far the largest currently and publicly available face swap video dataset, with over 100,000 total clips sourced from 3,426 paid actors, produced with several Deepfake, GAN-based, and non-learned methods. In addition to describing the methods used to construct the dataset, we provide a detailed analysis of the top submissions from the Kaggle contest. We show although Deepfake detection is extremely difficult and still an unsolved problem, a Deepfake detection model trained only on the DFDC can generalize to real "in-the-wild" Deepfake videos, and such a model can be a valuable analysis tool when analyzing potentially Deepfaked videos. Training, validation and testing corpuses can be downloaded from https://ai.facebook.com/datasets/dfdc.
研究动机与目标
- 在公共面对的操纵工具日益增多的情况下,说明大规模 Deepfake 检测的必要性。
- 创建一个规模庞大、经同意的数据集 DFDC,涵盖多样化方法和现实世界的变异。
- 公开基准检测模型以评估对真实世界 Deepfakes 的泛化能力。
- 提供对增强、干扰项与适用于不平衡 Deepfake 检测的评估指标的洞见。
提出的方法
- 组建一个大规模、基于同意的面部替换视频数据集,包含 3,426 名付费参与者(≈48,190 视频,原始数据 25 TB)。
- 使用多种面部替换方法(DFAE、MM/NN、NTH、FSGAN、StyleGAN)及后处理来生成 Deepfakes。
- 对 70% 的视频应用广泛的数据增强与干扰项(几何/颜色变换、叠加、狗/花卉滤镜)。
- 实施双测试集制度(公开测试用于排行榜,私有测试用于最终评估)并使用加权精度以及对数损失作为指标。
- 托管一个大型 Kaggle 竞赛,拥有 2,114 支队伍和私有测试分布以衡量现实世界性能。
- 比较了多种架构并在多种召回水平下报告前五名的精度表现。
实验结果
研究问题
- RQ1训练于 DFDC 数据集的检测器对真实且未见过的视频的泛化能力如何?
- RQ2不同的面部替换方法对可检测性和时间一致性有何影响?
- RQ3在现实世界的类别不平衡下,增强与干扰项如何影响检测性能?
- RQ4哪些指标最能在现实部署中反映检测器的实用性(在偏斜分布下的精度)?
主要发现
| Team name | Overall log loss | DFDC log loss | Real log loss | Real P@0.1 | Real P@0.3 | Real P@0.9 |
|---|---|---|---|---|---|---|
| Selim Seferbekov [24] | 0.4279 | 0.1983 | 0.6605 | 0.9803 | 0.7610 | 0.5389 |
| WM [34] | 0.4284 | 0.1787 | 0.6805 | 0.9294 | 0.6717 | 0.5775 |
| NTechLab [4] | 0.4345 | 0.1703 | 0.7039 | 0.9804 | 0.8244 | 0.5541 |
| Eighteen Years Old [25] | 0.4347 | 0.1882 | 0.6831 | 0.9843 | 0.6329 | 0.5625 |
| The Medics [11] | 0.4371 | 0.2157 | 0.6621 | 0.9653 | 0.7354 | 0.5516 |
- 在 DFDC 上的训练能对真实视频实现泛化,真实视频的平均精度为 0.753,ROC-AUC 为 0.734。
- 公开排行榜的表现与私有测试表现相关,表明泛化趋势。
- 前五名提交在 DFDC 上的对数损失约为 0.43,真实视频的表现较低但仍能体现泛化趋势。
- 基于 DFAE 的方法在多变条件下通常产生更高质量的替换,相较之下,类似 GAN 的方法在无法控制的环境中表现较差。
- 基于 StyleGAN 的替换在眼神对齐与光照匹配方面不稳定,在所评估的方法中表现较差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。