QUICK REVIEW

[论文解读] Deepfake Detection using Spatiotemporal Convolutional Networks

Oscar Lima, Sean Franklin|arXiv (Cornell University)|Jun 26, 2020

Generative Adversarial Networks and Image Synthesis参考文献 34被引用 63

一句话总结

本文评估用于视频时序卷积网络的 Deepfake 检测在 Celeb-DF v2 上的表现，显示利用时序信息的视频方法优于基于帧的方法基线，在所测试的模型中，R3D 取得最高性能。

ABSTRACT

Better generative models and larger datasets have led to more realistic fake videos that can fool the human eye but produce temporal and spatial artifacts that deep learning approaches can detect. Most current Deepfake detection methods only use individual video frames and therefore fail to learn from temporal information. We created a benchmark of the performance of spatiotemporal convolutional methods using the Celeb-DF dataset. Our methods outperformed state-of-the-art frame-based detection methods. Code for our paper is publicly available at https://github.com/oidelima/Deepfake-Detection.

研究动机与目标

说明在检测 Deepfakes 时需要利用时序信息，而非逐帧分析。
在 Celeb-DF v2 数据集上基准多种时空结构网络。
找出能够有效利用时序特征进行假视频检测的架构。

提出的方法

使用 RetinaFace 对人脸进行裁剪以创建裁剪后的人脸视频片段进行预处理。
评估在 Kinetics 上预训练的多种时空网络（如 R3D、MC3、R(2+1)D、I3D），并与基于帧的基线进行比较。
在 Celeb-DF v2 上训练每个模型，并进行诸如随机裁剪和时序抖动等数据增强。
使用带动量 0.9 的 SGD，权重衰减 0.0005，学习率 0.001，并在每 10 个 epoch 将学习率衰减 10 倍。
使用 ROC-AUC 和 top-1 准确率评估性能，并在 Celeb-DF 测试集上报告结果。

实验结果

研究问题

RQ1在 Celeb-DF v2 上，建模时序信息的时空卷积网络是否优于基于帧的 Deepfake 检测器？
RQ2哪些时空架构（R3D、MC3、R2+1D、I3D）在准确性和效率之间提供了最佳折衷？
RQ3在动作识别数据（Kinetics）上的预训练如何影响 Celeb-DF v2 的 Deepfake 检测性能？

主要发现

方法	ROC-AUC %	准确率 %
RCN	74.87	76.25
R2Plus1D	99.43	98.07
I3D	97.59	92.28
MC3	99.30	97.49
R3D	99.73	98.26

时空模型在 ROC-AUC 和准确性方面优于 Celeb-DF v2 上的基于帧的基线。
R3D 在所评估的时空模型中达到最高的 ROC-AUC 和准确率（99.73% ROC-AUC，98.26% 准确率）。
I3D 和 MC3 也展示出强劲表现，ROC-AUC 约在 97–99% 且准确率较高。
R2Plus1D 获得 ROC-AUC 99.43% 和准确率 98.07%。
所有结果表明时序建模在如 Celeb-DF v2 这类具有挑战性的数据集上对 Deepfake 检测具有可检测的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。