QUICK REVIEW

[論文レビュー] Decoupling Forgery Semantics for Generalizable Deepfake Detection

Ye Wei, Xinan He|arXiv (Cornell University)|Jun 14, 2024

Digital Media Forensic Detection被引用数 6

ひとこと要約

この論文は、適応的高域特徴と2段階の学習戦略を用いた意味分離フレームワークを提案し、データセット間での汎化可能性を高めたDeepFake検出を実現します。

ABSTRACT

In this paper, we propose a novel method for detecting DeepFakes, enhancing the generalization of detection through semantic decoupling. There are now multiple DeepFake forgery technologies that not only possess unique forgery semantics but may also share common forgery semantics. The unique forgery semantics and irrelevant content semantics may promote over-fitting and hamper generalization for DeepFake detectors. For our proposed method, after decoupling, the common forgery semantics could be extracted from DeepFakes, and subsequently be employed for developing the generalizability of DeepFake detectors. Also, to pursue additional generalizability, we designed an adaptive high-pass module and a two-stage training strategy to improve the independence of decoupled semantics. Evaluation on FF++, Celeb-DF, DFD, and DFDC datasets showcases our method's excellent detection and generalization performance. Code is available at: https://github.com/leaffeall/DFS-GDD.

研究の動機と目的

汎化性を損なう無関係な内容の意味論への過適合を解決する。
さまざまなDeepFake技術で共通して利用できる forgery semantics を分離する。
高周波特徴を活用して forgery の手がかりを強化し、色・質感依存を減らす。
分離された semantics の独立性を向上させる2段階の学習 regime を開発する。

提案手法

Encoder1 と多スケール高周波特徴 (MHFE) および融合 (MHFF) を用いて無関係な内容と全 forgery semantics を抽出する。
適応型高域フィルタ (AHF) を導入し高周波の手がかりを効率的に捉える。
Encoder2 とデュアルチャネルデコーダを通じて forgery semantics を共通 (Fc) と個別 (Fu) に分割する。
Fu と Fc を識別する2つの検出器を使用し、クロス再構成と自己再構成の損失を用いて分離を強制する。
リアル/偽および forgery タイプ間の表現分離を鋭くするコントラスト損失を適用する。
2段階の訓練を行う：ステージ1で Irrelevant Content と All Forgery Semantics を分離；ステージ2で Fu と Fc をさらに分離し、複数の損失項で最適化する。

実験結果

リサーチクエスチョン

RQ1意味分離によって共通の forgery の手がかりを個別および無関係な content から分離し、クロスドメイン検出を改善できるか？
RQ2マルチスケール高周波特徴と適応型高域フィルタが RGB ベースの手がかけを超える汎化を高めるか？
RQ3再構成損失とコントラスト損失を伴う2段階学習は forgery semantics の独立性を改善するか？
RQ4提案手法は近似ドメイン内/クロスドメインで最先端検出器と比較してどうか？

主な発見

方法	F2F AUC (%)	FS AUC (%)	NT AUC (%)	DF AUC (%)	FST AUC (%)
ResNet-50	93.76	93.30	83.43	93.34	92.25
EfficientNet-B4	97.41	97.10	90.87	97.02	96.28
Xception	96.92	95.85	94.00	97.47	95.62
SRM	96.49	97.59	92.66	97.64	97.55
F3-Net	96.56	94.14	93.15	97.67	96.80
UCF	97.12	97.46	91.99	97.40	97.31
Lin et al.	98.37	97.97	95.06	98.86	98.41
本手法	99.15	99.36	96.23	99.29	99.13

本手法はFF++サブデータセットにおける内部ドメインのAUCで最先端レベルを達成（例：F2F 99.15、FS 99.36、NT 96.23、DF 99.29、FST 99.13）。
クロスドメイン評価では FF++ 98.58、Celeb-DF 76.94、DFD 83.02、DFDC 62.55 のAUCを達成し、いくつかのベースラインを上回る。
アブレーションでは RGB+高周波の融合が MHFE および MHFF と組み合わせた場合に最良のクロスドメイン結果を示す（Fusion + MHFE + MHFF: 98.58/76.94/83.02/62.55）。
Grad-CAM の視覚化は提案手法がモデル間で共通の DeepFake の手がかりに一貫して焦点を当て、Xception や UCF のベースラインより汎化を改善することを示唆する。
アブレーション研究は多スケール高周波モジュールと意味分離戦略の有効性と補完性を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。