QUICK REVIEW

[论文解读] FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset

Hasam Khalid, Shahroz Tariq|arXiv (Cornell University)|Aug 11, 2021

Digital Media Forensic Detection参考文献 60被引用 23

一句话总结

本论文提出 FakeAVCeleb，一个新颖的音视频多模态深度伪造数据集，包含使用最先进的人脸互换与语音克隆技术生成的逼真深度伪造视频及相应的人工同步假音频。该数据集通过涵盖四个种族背景的名人（涵盖不同年龄组），缓解了现有数据集中存在的种族与性别偏见，支持多模态深度伪造检测器的稳健训练与评估。

ABSTRACT

While the significant advancements have made in the generation of deepfakes using deep learning technologies, its misuse is a well-known issue now. Deepfakes can cause severe security and privacy issues as they can be used to impersonate a person's identity in a video by replacing his/her face with another person's face. Recently, a new problem of generating synthesized human voice of a person is emerging, where AI-based deep learning models can synthesize any person's voice requiring just a few seconds of audio. With the emerging threat of impersonation attacks using deepfake audios and videos, a new generation of deepfake detectors is needed to focus on both video and audio collectively. To develop a competent deepfake detector, a large amount of high-quality data is typically required to capture real-world (or practical) scenarios. Existing deepfake datasets either contain deepfake videos or audios, which are racially biased as well. As a result, it is critical to develop a high-quality video and audio deepfake dataset that can be used to detect both audio and video deepfakes simultaneously. To fill this gap, we propose a novel Audio-Video Deepfake dataset, FakeAVCeleb, which contains not only deepfake videos but also respective synthesized lip-synced fake audios. We generate this dataset using the most popular deepfake generation methods. We selected real YouTube videos of celebrities with four ethnic backgrounds to develop a more realistic multimodal dataset that addresses racial bias, and further help develop multimodal deepfake detectors. We performed several experiments using state-of-the-art detection methods to evaluate our deepfake dataset and demonstrate the challenges and usefulness of our multimodal Audio-Video deepfake dataset.

研究动机与目标

解决现有高质量、多模态深度伪造数据集中同时包含伪造视频与对应伪造音频的缺失问题。
通过包含来自四大主要种族群体的名人及均衡的性别分布，缓解现有深度伪造数据集中的种族与性别偏见。
提供一个逼真且大规模的数据集，以支持能够检测音频与视频双重伪造的多模态深度伪造检测系统开发。
通过标准化基准数据集，实现对单模态、集成方法及多模态深度伪造检测方法的全面评估。
向研究社区提供公开可访问、文档齐全的数据集，同时实施访问控制以防止滥用。

提出的方法

收集了100位来自四个种族背景（高加索人、东亚人、南亚人、非洲人）的名人真实YouTube视频，确保性别与年龄分布均衡。
采用最先进深度伪造生成方法：基于StyleGAN的人脸互换技术用于视频伪造，以及神经文本到语音模型（如Tacotron2、FastSpeech2）用于语音克隆。
通过面部关键点追踪与音视频同步技术，确保合成音频与视频帧之间的唇形同步准确。
使用Face++面部识别服务识别并匹配最相似的人脸对，以提升人脸互换的逼真度。
为每段视频生成对应的深度伪造视频与同步的假音频，保持时间对齐与视觉-语音一致性。
通过受控访问系统（数据集申请表）发布数据集，防止滥用，同时保障合法研究访问。

实验结果

研究问题

RQ1与单模态数据集相比，包含伪造视频与对应唇形同步假音频的多模态深度伪造数据集是否能提升深度伪造检测器的性能？
RQ2训练数据中的人口统计多样性（种族、性别、年龄）在多大程度上影响深度伪造检测模型的泛化能力与公平性？
RQ3当在新的、逼真且平衡的音视频深度伪造数据集上评估时，最先进单模态、集成方法与多模态深度伪造检测方法的表现如何？
RQ4在时间同步且视觉上可信的音视频深度伪造中，检测的关键挑战是什么？
RQ5所提出的数据集能否作为未来多模态深度伪造检测与泛化研究的可靠基准？

主要发现

FakeAVCeleb 包含100位名人，四个人种背景分布均衡，男女各占50%，年龄组多样，有效降低了人口统计偏见。
该数据集包含深度伪造视频及使用最流行深度伪造生成技术合成的、唇形同步的假音频。
实验表明，多模态检测方法在FakeAVCeleb上的表现优于单模态基线模型，证明了联合音视频分析的价值。
该数据集已通过11种最先进检测方法（包括单模态、集成与多模态方法）进行评估，证实其在基准测试中的实用性。
与现有数据集（如DFDC）相比，FakeAVCeleb提供明确的音频与视频标注，支持对模态特异性检测性能的精确评估。
该数据集可通过受控访问系统公开获取（https://bit.ly/38prlVO），访问权限仅在审核通过后授予，以防止滥用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。