QUICK REVIEW

[논문 리뷰] Decoupling Forgery Semantics for Generalizable Deepfake Detection

Ye Wei, Xinan He|arXiv (Cornell University)|2024. 06. 14.

Digital Media Forensic Detection인용 수 6

한 줄 요약

본 논문은 적응형 고역통 특징과 두 단계 학습 전략을 갖춘 의미 분리 프레임워크를 제시하여 데이터셋 간 일반화 가능한 DeepFake 탐지를 향상시킨다.

ABSTRACT

In this paper, we propose a novel method for detecting DeepFakes, enhancing the generalization of detection through semantic decoupling. There are now multiple DeepFake forgery technologies that not only possess unique forgery semantics but may also share common forgery semantics. The unique forgery semantics and irrelevant content semantics may promote over-fitting and hamper generalization for DeepFake detectors. For our proposed method, after decoupling, the common forgery semantics could be extracted from DeepFakes, and subsequently be employed for developing the generalizability of DeepFake detectors. Also, to pursue additional generalizability, we designed an adaptive high-pass module and a two-stage training strategy to improve the independence of decoupled semantics. Evaluation on FF++, Celeb-DF, DFD, and DFDC datasets showcases our method's excellent detection and generalization performance. Code is available at: https://github.com/leaffeall/DFS-GDD.

연구 동기 및 목표

일반화에 해를 끼치는 무관한 콘텐츠 의미에 대한 과적합 해결.
다양한 DeepFake 기술에서 사용할 수 있는 공통 위조 의미를 분리.
고주파 특징을 활용해 위조 신호를 강화하되 색상-질감 의존도를 줄인다.
분리된 의미의 독립성을 높이기 위한 두 단계 학습 체계를 개발.

제안 방법

Encoder1과 다중 스케일 고주파 특징(MHFE) 및 융합(MHFF)을 사용하여 무관한 콘텐츠와 모든 위조 의미를 추출한다.
고주파 신호를 효과적으로 포착하기 위한 적응형 고역통 필터(AHF)를 도입한다.
Encoder2와 이중 채널 디코더를 통해 위조 의미를 공통(Fc)과 고유(Fu) 구성요소로 분리한다.
Fu와 Fc를 식별하기 위한 두 개의 탐지기를 사용하고 교차 재구성 및 자기 재구성 손실로 분리화를 강제한다.
실제/가짜 및 위조 유형 간 표현 분리를 선명하게 하는 대조 손실을 적용한다.
두 단계로 학습: 1단계는 Irrelevant Content와 All Forgery Semantics를 분리하고; 2단계는 Fu와 Fc로 더 분리하며 여러 손실 항으로 최적화한다.

실험 결과

연구 질문

RQ1의미 분리로 공통 위조 신호를 고유 및 무관 콘텐츠로부터 분리해 교차 도메인 탐지 성능을 향상시킬 수 있는가?
RQ2다중 스케일 고주파 특징과 적응형 고역통 필터링이 RGB 기반 신호를 넘어 일반화를 향상시키는가?
RQ3재구성 및 대조 손실이 포함된 두 단계 학습이 위조 의미의 독립성을 향상시키는가?
RQ4제안된 방법이 최첨단 탐지기와 비교하여 intra-domain vs. cross-domain에서 어떤 성능을 보이는가?

주요 결과

방법	F2F AUC (%)	FS AUC (%)	NT AUC (%)	DF AUC (%)	FST AUC (%)
ResNet-50	93.76	93.30	83.43	93.34	92.25
EfficientNet-B4	97.41	97.10	90.87	97.02	96.28
Xception	96.92	95.85	94.00	97.47	95.62
SRM	96.49	97.59	92.66	97.64	97.55
F3-Net	96.56	94.14	93.15	97.67	96.80
UCF	97.12	97.46	91.99	97.40	97.31
Lin et al.	98.37	97.97	95.06	98.86	98.41
Ours	99.15	99.36	96.23	99.29	99.13

본 방법은 FF++ 하위 데이터셋에서 intra-domain AUC 최신 성능을 달성하며, 예를 들어 99.15 (F2F), 99.36 (FS), 96.23 (NT), 99.29 (DF), 99.13 (FST)이다.
교차 도메인 평가에서 98.58 (FF++), 76.94 (Celeb-DF), 83.02 (DFD), 62.55 (DFDC) AUC를 달성해 다수의 베이스라인보다 우수하다.
절단 분석은 RGB+고주파 융합이 MHFE와 MHFF와 함께 최상의 교차 도메인 결과를 낳음을 보여준다(Fusion + MHFE + MHFF: 98.58/76.94/83.02/62.55).
Grad-CAM 시각화는 제안된 방법이 모델 전반에서 공통 DeepFake 신호에 일관되게 주목하여 Xception 및 UCF 베이스라인 대비 일반화를 향상시킴을 시사한다.
절단 연구는 다중 스케일 고주파 모듈과 의미 분리 전략의 효과성과 상호보완성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.