QUICK REVIEW

[論文レビュー] Learning to Recognize Patch-Wise Consistency for Deepfake Detection.

Tianchen Zhao, Xiang Xu|arXiv (Cornell University)|Dec 16, 2020

Digital Media Forensic Detection参考文献 36被引用数 10

ひとこと要約

本論文は、改ざんされた顔画像に内在するピクセル単位のソース一貫性を活用する、深フェイク検出のための新しい表現学習手法であるピクセル単位一貫性学習（PCL）を提案する。不一致画像生成器（I2G）を用いて合成された不一致データで訓練することで、PCLは、インハウスおよびクロスデータセット評価の両方において、平均してAUCで先行手法を2%および8%上回る最先端の性能を達成する。

ABSTRACT

We propose to detect Deepfake generated by face manipulation based on one of their fundamental features: images are blended by patches from multiple sources, carrying distinct and persistent source features. In particular, we propose a novel representation learning approach for this task, called patch-wise consistency learning (PCL). It learns by measuring the consistency of image source features, resulting to representation with good interpretability and robustness to multiple forgery methods. We develop an inconsistency image generator (I2G) to generate training data for PCL and boost its robustness. We evaluate our approach on seven popular Deepfake detection datasets. Our model achieves superior detection accuracy and generalizes well to unseen generation methods. On average, our model outperforms the state-of-the-art in terms of AUC by 2% and 8% in the in- and cross-dataset evaluation, respectively.

研究の動機と目的

顔の改ざんによって生成される深フェイクを検出する課題に対処すること。これは、しばしば複数のソースからのピクセルを混合するためである。
これらのピクセルに内在する一貫したソース特徴を捉え、それを活用する表現学習手法を開発すること。
合成されたトレーニングデータ生成により、さまざまな改ざん手法に対するモデルの頑健性を向上させること。
トレーニング分布を超えた未観測の生成手法に対しても一般化を向上させること。
解釈可能で一貫性のある表現を備えた優れた検出精度を達成すること。

提案手法

ピクセル単位一貫性学習（PCL）を提案する。これは、画像のピクセル単位の領域間におけるソース特徴の一貫性を測定する表現学習フレームワークである。
不一致画像生成器（I2G）を導入し、実画像に人工的な不一致を導入することでトレーニングデータを合成し、深フェイクのアーチファクトをシミュレートする。
モデルがピクセルレベルのソース不一致を特定し、それらを学習することで、さまざまな改ざん技術に対する頑健性を向上させる。
対照的学習の原則を用い、一貫したピクセル領域からの特徴を一致させるとともに、不一致領域からの特徴を分離する。
画像ピクセルに内在する構造的およびテクスチャ的パターンを活用し、人間の目では見えない微細な改ざんを検出する。
人為的な改ざんラベルが不要な自己教師あり学習戦略を採用することで、スケーラビリティを向上させる。

実験結果

リサーチクエスチョン

RQ1ソース特徴のピクセル単位の一貫性は、深フェイク改ざんの検出に信頼できるシグナルとして機能するか？
RQ2自己教師ありの方法で、ピクセルレベルのソース一貫性を効果的に学習し、活用することは可能か？
RQ3合成された不一致データは、未観測の深フェイク生成手法へのモデル一般化を向上させるか？
RQ4提案手法は、インハウスおよびクロスデータセット評価の両方において、既存の最先端手法をどの程度上回るか？
RQ5高い解釈可能性を維持しながら、頑健な検出性能を達成できるか？

主な発見

提案されたPCLモデルは、インハウスデータセット評価において、最先端手法を平均してAUCで2%上回る。
クロスデータセット評価では、平均してAUCで8%上回り、優れた一般化性能を示している。
不一致画像生成器（I2G）の使用により、多様な改ざん手法に対するモデルの頑健性が顕著に向上した。
学習された表現は解釈可能で頑健であり、ピクセル間のソース一貫性を明示的にモデル化している。
未観測の生成手法に対しても良好な一般化が達成されており、さまざまな深フェイクパイプライン間での強力な転送性を示している。
本手法は、7つのベンチマーク深フェイク検出データセットで、すべてにおいて最先端の性能を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。