QUICK REVIEW

[论文解读] In Ictu Oculi: Exposing AI Generated Fake Face Videos by Detecting Eye Blinking

Yuezun Li, Ming‐Ching Chang|arXiv (Cornell University)|Jun 7, 2018

Generative Adversarial Networks and Image Synthesis参考文献 17被引用 181

一句话总结

该论文提出一种法证方法，通过分析眼部眨眼，利用 Long-term Recurrent Convolutional Network (LRCN) 的时序眼部动态来区分真实与合成视频，从而检测 AI 生成的假脸视频。

ABSTRACT

The new developments in deep generative networks have significantly improve the quality and efficiency in generating realistically-looking fake face videos. In this work, we describe a new method to expose fake face videos generated with neural networks. Our method is based on detection of eye blinking in the videos, which is a physiological signal that is not well presented in the synthesized fake videos. Our method is tested over benchmarks of eye-blinking detection datasets and also show promising performance on detecting videos generated with DeepFake.

研究动机与目标

激发对 AI 生成的假脸视频进行法证分析的必要性。
提出一种生理信号——眨眼——作为可靠的法证信号。
开发一个深度学习架构，捕捉眼部的时序动态以检测伪造视频中的眨眼缺失。
在眼眨数据集和 DeepFake 生成的视频上评估该方法。

提出的方法

逐帧检测人脸并将其对齐到规范坐标系统。
基于关键点裁剪眼部区域以形成眼序列。
使用基于 VGG16 的 CNN 提取帧级眼部特征，且不包含最后的全连接层。
采用带有 LSTM 的 Long-term Recurrent Convolutional Network (LRCN) 来建模眼部眨眼的时序动态。
在 open/closed eye 标签上对前端 CNN 进行训练，然后在 Back-propagation through time 下端到端训练 LRCN。

实验结果

研究问题

RQ1AI 生成的视频中眼睛眨动的缺失或不规则性是否可作为可检测的伪像？
RQ2通过 LRCN 引入时序信息是否比逐帧 CNN 或基于关键点的方法在眨眼状态分类上具有改进？
RQ3基于眨眼的方法对 DeepFake 生成内容的泛化能力如何？
RQ4哪些数据集和训练策略能够在真实与伪视频中实现鲁棒的眨眼检测？

主要发现

LRCN 以 ROC 0.99 的最佳性能，优于 CNN (0.98) 和 EAR (0.79)。
CNN 仅使用 CNN 能在单帧上捕捉眼睛状态，但缺乏时序一致性。
通过 LSTM 建模时序动态提高对模糊帧的鲁棒性并保持平滑的眼睛状态序列。
该方法能检测真实视频中的眨眼模式，而在 DeepFake 生成的视频中这些模式往往缺失或被改变。
创建并用于评估的专门眼睛眨眼视频（EBV）数据集，以及 CEW 等其他数据集。
该方法在检测由 DeepFake 生成的视频方面显示出有前景的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。