QUICK REVIEW

[論文レビュー] Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues

Yu-Yang Qian, Guojun Yin|arXiv (Cornell University)|Jul 18, 2020

Digital Media Forensic Detection参考文献 56被引用数 42

ひとこと要約

本論文は F3-Net を提案します。周波数認識の二-stream フレームワークで、Frequency-aware Decomposition (FAD) と Local Frequency Statistics (LFS) を用い、MixBlock クロスアテンションモジュールで顔の偽造を検出します。FaceForensics++ における低品質圧縮下で特に最先端の結果を達成します。

ABSTRACT

As realistic facial manipulation technologies have achieved remarkable progress, social concerns about potential malicious abuse of these technologies bring out an emerging research topic of face forgery detection. However, it is extremely challenging since recent advances are able to forge faces beyond the perception ability of human eyes, especially in compressed images and videos. We find that mining forgery patterns with the awareness of frequency could be a cure, as frequency provides a complementary viewpoint where either subtle forgery artifacts or compression errors could be well described. To introduce frequency into the face forgery detection, we propose a novel Frequency in Face Forgery Network (F3-Net), taking advantages of two different but complementary frequency-aware clues, 1) frequency-aware decomposed image components, and 2) local frequency statistics, to deeply mine the forgery patterns via our two-stream collaborative learning framework. We apply DCT as the applied frequency-domain transformation. Through comprehensive studies, we show that the proposed F3-Net significantly outperforms competing state-of-the-art methods on all compression qualities in the challenging FaceForensics++ dataset, especially wins a big lead upon low-quality media.

研究の動機と目的

圧縮とRGB空間では見えにくい微細なアーティファクトにも対応する堅牢な顔偽造検出を動機づける。
高周波アーティファクトと圧縮誤差を捉える周波数認識の手掛かりを導入する。
周波数分解成分と局所周波数統計から共同で学習する二-streamアーキテクチャを提案する。

提案手法

周波数領域を学習可能な帯に分割し、複数の周波数認識画像成分を再構成する Frequency-aware Decomposition (FAD) を提案する。
Sliding Window DCT (SWDCT) を適用して局所的な周波数応答を抽出し、帯ごとの平均応答を集約する Local Frequency Statistics (LFS) を提案する。
FADとLFSの二-streamバックボーン (Xception) を使用し、進行的な融合のために MixBlock クロスアテンションで接続する。
クロスエントロピー損失でエンドツーエンド訓練を行い、FaceForensics++ の LQ/HQ/RAW 設定において評価する。

実験結果

リサーチクエスチョン

RQ1周波数認識の手掛かりは、さまざまな圧縮品質下で偽造検出の性能を改善できるか？
RQ2周波数分解成分と局所周波数統計は、融合モジュールがより良い検出のために活用できる補完的情報を提供するか？
RQ3クロスアテンションベースの融合（MixBlock）は、二-stream の相互作用を強化しRGBベースのベースラインを上回るか？
RQ4FaceForensics++ のさまざまな操作タイプで提案手法はどのように性能を示すか？
RQ5単一フレーム分析を超える動画レベルのフレームワークへ移植可能か？

主な発見

Methods	Acc (LQ)	AUC (LQ)	Acc (HQ)	AUC (HQ)	Acc (RAW)	AUC (RAW)
Steg.Features	55.98%	0.000	70.97%	-	97.63%	-
LD-CNN	58.69%	-	78.45%	-	98.57%	-
Constrained Conv	66.84%	-	82.97%	-	98.74%	-
CustomPooling CNN	61.18%	-	79.08%	-	97.03%	-
MesoNet	70.47%	-	83.10%	-	95.23%	-
Face X-ray	-	0.616	-	0.874	-	-
Xception	86.86%	0.893	95.73%	0.963	99.26%	0.992
Xception-ELA	79.63%	0.829	93.86%	0.948	98.57%	0.984
Xception-PAFilters	87.16%	0.902	-	-	-	-
F3-Net (Xception)	90.43%	0.933	97.52%	0.981	99.95%	0.998
Optical Flow	-	-	-	-	-	-
Slowfast	90.53%	0.936	97.09%	0.982	99.53%	0.994
F3-Net(Slowfast)	93.02%	0.958	98.95%	0.993	99.99%	0.999

F3-Net は LQ / HQ / RAW の各設定で最先端手法を上回り、特に低品質メディアで顕著な改善を示す。
アブレーション研究は、FAD（周波数認識分解）と LFS（局所周波数統計）がそれぞれ性能に寄与し、MixBlock がさらに利得を提供することを示す。
高周波成分は偽造検出に特に有用であり、全ての周波数帯を用いると最良の結果が得られる。
クロスアテンション融合を伴う二-streamフレームワークは、偽陽性率が低いときにROC特性を改善する。
SlowFastバックボーンを用いた動画拡張は結果をさらに改善し、いくつかの指標でトップパフォーマンスを達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。