QUICK REVIEW

[論文レビュー] DeepFake Detection Based on the Discrepancy Between the Face and its Context

Yuval Nirkin, Lior Wolf|arXiv (Cornell University)|Aug 27, 2020

Face recognition and analysis参考文献 59被引用数 28

ひとこと要約

この論文は、顔の領域とその元の文脈（例：髪、耳、首）との不一致を検出することで、顔交換画像を同定する画期的なディープフェイク検出手法を提案する。2つの別々の顔認識ネットワーク（1つは顔、もう1つは文脈）を用い、アイデンティティ埋め込みを比較することで不一致を特定し、FaceForensics++、Celeb-DF-v2、DFDCベンチマークで最先端の性能を達成するとともに、未確認の操作手法に対しても一般化可能である。

ABSTRACT

We propose a method for detecting face swapping and other identity manipulations in single images. Face swapping methods, such as DeepFake, manipulate the face region, aiming to adjust the face to the appearance of its context, while leaving the context unchanged. We show that this modus operandi produces discrepancies between the two regions. These discrepancies offer exploitable telltale signs of manipulation. Our approach involves two networks: (i) a face identification network that considers the face region bounded by a tight semantic segmentation, and (ii) a context recognition network that considers the face context (e.g., hair, ears, neck). We describe a method which uses the recognition signals from our two networks to detect such discrepancies, providing a complementary detection signal that improves conventional real vs. fake classifiers commonly used for detecting fake images. Our method achieves state of the art results on the FaceForensics++, Celeb-DF-v2, and DFDC benchmarks for face manipulation detection, and even generalizes to detect fakes produced by unseen methods.

研究の動機と目的

リアルな顔交換メディアが視聴者をだまし、視覚的証拠への信頼を損なうという増大する社会的脅威に対処すること。
現在のディープフェイク手法の内在的な設計上の制限を活用して、顔交換によるアイデンティティ改ざんを検出すること。
従来の本物/偽物分類器とは補完的な検出信号を提供するよう、顔領域と文脈領域のアイデンティティ不一致に基づくもの。
個々の生成技術に特有のアーティファクトではなく、構造的不一致に注目することで、耐性と一般化性能を向上させること。
ディープフェイクの品質が向上し、アーティファクトが減少する中でも効果を発揮する検出フレームワークを構築すること。

提案手法

本手法は、顔領域（E_f）とその周囲の文脈（E_c）にそれぞれ特化した2つの顔認識ネットワークを採用し、両者ともXceptionアーキテクチャを用いる。
顔のセグメンテーションには、ランダム回転、色ずれ、水平反転、ガウスノイズを含むデータ拡張を施したU-Netベースのネットワークを用いる。
顔と文脈の両方のネットワークから得られるアイデンティティ埋め込みを比較し、不一致を検出する不一致信号を生成する。
不一致信号は、従来の本物/偽物分類器と組み合わせられ、検出性能が向上する。アイデンティティネットワークはVGGFace2で学習され、全パイプラインはFaceForensics++でファインチューニングされる。
ディスクラミネーター D を用いた adversarial training を用いてエンドツーエンドで学習され、1枚のV100 GPUで推論速度は 81.5–90.6 fps である。
本手法は、元の人物やターゲットのアイデンティティに関する事前知識を必要とせず、顔と文脈間のアイデンティティ信号の一貫性に依存する。

実験結果

リサーチクエスチョン

RQ1顔とその周囲の文脈との間の不一致は、顔交換画像を検出するための信頼できる信号として機能するか？
RQ2不一致に基づく検出手法は、未確認の顔操作技術に対しても一般化可能か？
RQ3アーティファクトに基づく検出手法と比較して、顔と文脈のアイデンティティ不一致信号はどれほど効果的か？
RQ4不一致信号は、従来の本物/偽物分類器と効果的に組み合わせられるか？それにより全体の検出性能が向上するか？
RQ5従来の検出技術を回避する高品質でアーティファクトのないディープフェイクに対しても、本手法は耐性があるか？

主な発見

FaceForensics++ベンチマークで最先端の性能を達成し、従来手法を上回る検出精度を実現した。
Celeb-DF-v2データセットでも最先端の結果を達成し、多様な実世界の顔操作データへの強力な一般化性能を示した。
未確認の操作手法によって生成されたフェイク画像に対しても効果的に検出可能であり、分布シフトに対しても耐性があることが示された。
不一致信号は従来の本物/偽物分類器と補完的であり、組み合わせることで全体の検出性能が向上した。
推論速度が高く、1枚のV100 GPUで全パイプラインが 81.5–90.6 fps で動作し、リアルタイム展開が可能である。
ディープフェイクのアーティファクトが最小限に抑えられても、本手法は依然として効果的である。これは、視覚的アーティファクトではなく構造的不一致に依存しているためである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。