Skip to main content
QUICK REVIEW

[論文レビュー] DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection

Liming Jiang, Li Ren|arXiv (Cornell University)|Jan 9, 2020
Digital Media Forensic Detection参考文献 43被引用数 65
ひとこと要約

DeeperForensics-1.0を紹介。60,000本の動画を含む大規模で高品質かつ多様な顔偽造データセットと、高忠実度の顔スワッピングのためのDF-VAEを提案。隠れたテストセットを含み、いくつかのベースラインをベンチマークする。

ABSTRACT

We present our on-going effort of constructing a large-scale benchmark for face forgery detection. The first version of this benchmark, DeeperForensics-1.0, represents the largest face forgery detection dataset by far, with 60,000 videos constituted by a total of 17.6 million frames, 10 times larger than existing datasets of the same kind. Extensive real-world perturbations are applied to obtain a more challenging benchmark of larger scale and higher diversity. All source videos in DeeperForensics-1.0 are carefully collected, and fake videos are generated by a newly proposed end-to-end face swapping framework. The quality of generated videos outperforms those in existing datasets, validated by user studies. The benchmark features a hidden test set, which contains manipulated videos achieving high deceptive scores in human evaluations. We further contribute a comprehensive study that evaluates five representative detection baselines and make a thorough analysis of different settings.

研究の動機と目的

  • 実世界の顔偽造検出のギャップを埋めるため、 大規模で高品質なデータセットを提供する。
  • 実世界条件を模倣するため、摂動による多様性を導入する。
  • 高忠実度のエンドツーエンド顔スワッピングフレームワーク(DF-VAE)を提案し検証する。
  • 現実世界の頑健性を評価するため、難易度の高い隠れたテストセットで偽造検出ベースラインをベンチマークする。

提案手法

  • 事前同意を得た100人の俳優からのソース動画を、室内で制御された環境で高解像度1920x1080映像で収集。
  • 構造と外観を分離して頑健で拡張性のある顔の再演と多対多スワッピングを実現するDF-VAEの開発。
  • スワップした顔の空間的ガイド付きスタイルマッチングと融合のためのMAdaIN(マスクド適応インスタンス正規化)の導入。
  • 現フレームと前フレームを光学フローに基づく損失で結びつけ、フリッカーを低減する時系列整合性制約。
  • manipulated動画に対して、リアリズムと多様性を高めるため7種類の摂動を5段階の強度で適用。
  • 学習分布を超えた頑健性を評価するための、高品質で歪み豊富な manipulated動画400本の隠しテストセット。

実験結果

リサーチクエスチョン

  • RQ1実世界のシナリオに適した偽造検出器をより良く訓練するには、データセットはどれくらい大規模で多様であるべきか?
  • RQ2高忠実度で拡張性のある顔スワッピングフレームワーク(DF-VAE)は、ベンチマーク用に適した現実的な manipulated動画を生成できるか?
  • RQ3一般的な現実世界の摂動は、動画ベースの偽造検出器の性能にどのように影響するか?
  • RQ4隠れた分布シフトを含むテストセットで評価することは、標準分割と比較して現行検出器のギャップを明らかにするか?

主な発見

  • DeeperForensics-1.0には60,000本の動画(1,760万フレーム)、内50,000本がリアル、10,000本が manipulated、そして5段階の強度で7種類の摂動を導入。
  • DF-VAEでは構造/外観の分離とMAdaIN融合により、スタイル不一致と境界アーティファクトを低減した多対多の顔再演を実現。
  • 人間の知覚研究では、DeeperForensics-1.0は従来データセットよりも現実的と評価された。
  • 標準セットで訓練されたベースラインの動画偽造検出器は隠しテストセットで頑健性にばらつきを示し、分布シフト評価の重要性を示唆。
  • I3Dは標準のDeeperForensics-1.0セットで訓練した場合、複数のベースラインの中で最も高い隠しテスト精度を達成し、検出における時系列手がかりを強調。
  • 隠しテストセット(400本)と摂動豊富な manipulationは、既存検出器のギャップを浮き彫りにし、堅牢で現実世界に即したベンチマーキングの必要性を強調。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。