QUICK REVIEW

[論文レビュー] In Ictu Oculi: Exposing AI Generated Fake Face Videos by Detecting Eye Blinking

Yuezun Li, Ming‐Ching Chang|arXiv (Cornell University)|Jun 7, 2018

Generative Adversarial Networks and Image Synthesis参考文献 17被引用数 181

ひとこと要約

本論文は、眼の瞬きの時系列ダイナミクスを活用して実写と合成動画を区別する、LRCNを用いた法医学的手法を提案します。

ABSTRACT

The new developments in deep generative networks have significantly improve the quality and efficiency in generating realistically-looking fake face videos. In this work, we describe a new method to expose fake face videos generated with neural networks. Our method is based on detection of eye blinking in the videos, which is a physiological signal that is not well presented in the synthesized fake videos. Our method is tested over benchmarks of eye-blinking detection datasets and also show promising performance on detecting videos generated with DeepFake.

研究の動機と目的

AI生成の偽顔動画における法医学の必要性を喚起する。
信頼できる法医学的信号として生理的手掛かりである目の瞬きを提案する。
偽動画における瞬きの欠如を検出するため、眼の時間的ダイナミクスを捉える深層学習アーキテクチャを開発する。
目の瞬きデータセットおよびDeepFake生成動画で手法を評価する。

提案手法

各フレームで顔を検出し、標準座標系にアライメントする。
ランドマークに基づいて目の領域を切り出し、目の系列を形成する。
最終全結合層を除外したVGG16ベースのCNNを使い、フレームレベルの目の特徴を抽出する。
長期再発畳み込みネットワーク（LRCN）とLSTMを用いて眼の瞬きの時間的ダイナミクスをモデル化する。
オープン/クローズドの目のラベルで前段のCNNを訓練し、その後LRCNを時を超えた誤差逆伝播でエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1AI生成動画における瞬きの欠如や不規則性は検出可能なアーティファクトとなり得るか。
RQ2LRCNによる時間情報の組み込みは、フレームごとのCNNやランドマークベースの手法より瞬き状態の分類を改善するか。
RQ3瞬きベースの手法はDeepFake生成コンテンツにどれだけ一般化するか。
RQ4実動画と偽動画において頑健な瞬き検出を得るデータセットと訓練戦略は何か。

主な発見

LRCNはROC0.99で最高の性能を達成し、CNN（0.98）およびEAR（0.79）を上回る。
CNNのみは個々のフレームで目の状態を捉えるが、時間的一貫性を欠く。
LSTMを用いた時間ダイナミクスのモデリングは、曖昧なフレームに対する頑健性を高め、滑らかな目の状態の連なりを維持する。
この手法は信頼できる動画における瞬きパターンを検出し、DeepFake生成動画ではしばしば欠落または変化している。
Eye Blinking Video (EBV) データセットを作成・評価に使用し、CEWなど他のデータセットと併用。
DeepFakeで生成された動画の検出において有望な性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。