[论文解读] DeepRhythm: Exposing DeepFakes with Attentional Visual Heartbeat Rhythms
DeepRhythm 通过在人脸视频中监测心跳节律,结合运动放大视觉信号与双重时空注意力,检测 DeepFakes,在跨数据集上提高准确性与鲁棒性。
As the GAN-based face image and video generation techniques, widely known as DeepFakes, have become more and more matured and realistic, there comes a pressing and urgent demand for effective DeepFakes detectors. Motivated by the fact that remote visual photoplethysmography (PPG) is made possible by monitoring the minuscule periodic changes of skin color due to blood pumping through the face, we conjecture that normal heartbeat rhythms found in the real face videos will be disrupted or even entirely broken in a DeepFake video, making it a potentially powerful indicator for DeepFake detection. In this work, we propose DeepRhythm, a DeepFake detection technique that exposes DeepFakes by monitoring the heartbeat rhythms. DeepRhythm utilizes dual-spatial-temporal attention to adapt to dynamically changing face and fake types. Extensive experiments on FaceForensics++ and DFDC-preview datasets have confirmed our conjecture and demonstrated not only the effectiveness, but also the generalization capability of \emph{DeepRhythm} over different datasets by various DeepFakes generation techniques and multifarious challenging degradations.
研究动机与目标
- 通过利用面部视频中的实时心跳节律,超越像素级伪影,推动鲁棒的 DeepFake 检测。
- 引入运动放大时空表示(MMSTR),以突出心跳信号。
- 设计一个双重时空注意力网络,以适应不同的面部动态和伪造类型。
- 在 FaceForensics++ 与 DFDC-preview 数据集上证明该方法的有效性与鲁棒性。
- 显示 DeepRhythm 能够跨多种 DeepFake 生成技术和降级情形进行泛化。
提出的方法
- 计算运动放大时空表示(MMSTR),在面部感兴趣区域(ROI)上生成突出心跳信号的 MMST 映射。
- 建模一个双重时空注意力机制,将注意力分解为空间(先验与自适应)和时间(块级与帧级)两个组成部分。
- 在端到端网络中,将 MMST 映射输入到卷积神经网络(ResNet18)进行真/假分类,辅以辅助组件(Meso-4 用于帧级注意力,LSTM 用于块级时序注意力)。
- 将注意力分解为 t(时间)和 s(空间),形式为 y = phi((t · s^T) ⊙ X),其中 s = s_p + s_a 且 t = t_b + t_f。
- 在 FaceForensics++ 子数据集上训练,并在 DFDC-preview 上进行跨数据集评估,以测试泛化能力和对降级(JPEG、模糊、噪声、时间抽样)的鲁棒性。
- 消融研究对比 ST 与 MMSTR 输入、单注意力与双注意力,以及端到端与阶段性训练,以展示 MMSTR 与双注意力设计带来的提升。
实验结果
研究问题
- RQ1能否利用视频中捕获的心跳节律线索,在多种 DeepFake 方法下区分真实与伪造面孔?
- RQ2与传统的时空表示相比,运动放大表示(MMSTR)是否更能揭示心跳差异以用于 DeepFake 检测?
- RQ3与单一注意力或非注意力基线相比,双重时空注意力是否提高了对面部动态、遮挡和降级的鲁棒性?
- RQ4DeepRhythm 在不同数据集(FaceForensics++ 与 DFDC-preview)及欺骗技术上的泛化能力如何?
- RQ5端到端训练与模块化训练在所提框架中的贡献分别是什么?
主要发现
- 在 FaceForensics++ 子数据集和全部数据上进行训练时,DeepRhythm 的准确性高于最先进的基线方法(Bayer、Inception-ResNet V1、Xception、MesoNet)。
- 在 ALL 数据上训练时,DeepRhythm 在 DFDC-preview 上获得有竞争力的准确率,超越 Xception,并在跨数据集设置中超过若干基线。
- MMSTR(运动放大 STR)显著提升相对于标准 STR 的判别能力,对 ST 基线有显著增益。
- 双空间注意力(先验+自适应)与双时序注意力(块级+帧级)带来显著的性能提升,端到端训练达到最佳结果(DR-mmst-APBF-e2e)。
- 消融结果显示,单独 MMSTR 相较于 ST 平均准确率提升约 0.217,适应性与先验空间注意力各自增加约 0.061–0.0632,双时序注意力带来额外显著增益,最终得到最强的端到端模型。
- DeepRhythm 对 JPEG、模糊、噪声和时间采样等降级具有鲁棒性,在这些条件下仍保持高于基线的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。