QUICK REVIEW

[논문 리뷰] Delving into Sequential Patches for Deepfake Detection

Jiazhi Guan, Hang Zhou|arXiv (Cornell University)|2022. 07. 06.

Generative Adversarial Networks and Image Synthesis인용 수 21

한 줄 요약

본 논문은 딥페이크 탐지를 위한 Local- & Temporal-aware Transformer(LTTD)를 제안한다. 로컬 패치의 시퀀스를 Transformer 블록과 패치 간 일관성 메커니즘으로 모델링하여, 데이터셋 간 최첨단 일반화 및 강건성을 달성한다.

ABSTRACT

Recent advances in face forgery techniques produce nearly visually untraceable deepfake videos, which could be leveraged with malicious intentions. As a result, researchers have been devoted to deepfake detection. Previous studies have identified the importance of local low-level cues and temporal information in pursuit to generalize well across deepfake methods, however, they still suffer from robustness problem against post-processings. In this work, we propose the Local- & Temporal-aware Transformer-based Deepfake Detection (LTTD) framework, which adopts a local-to-global learning protocol with a particular focus on the valuable temporal information within local sequences. Specifically, we propose a Local Sequence Transformer (LST), which models the temporal consistency on sequences of restricted spatial regions, where low-level information is hierarchically enhanced with shallow layers of learned 3D filters. Based on the local temporal embeddings, we then achieve the final classification in a global contrastive way. Extensive experiments on popular datasets validate that our approach effectively spots local forgery cues and achieves state-of-the-art performance.

연구 동기 및 목표

본 연구의 목적은 보지 않은 위조 방법으로도 일반화되는 강건한 딥페이크 탐지를 모티브로 한다.
포스트프로세싱과 열화에 견디기 위해 로컬 저수준의 시간적 신호를 활용한다.
로컬 영역에서의 시간적 일관성을 강조하는 패치 시리즈 트랜스포머 프레임워크를 개발한다.
글로벌 의사결정을 위한 패치 수준 정보를 모으기 위해 CPI 손실과 CPA 모듈을 도입한다.

제안 방법

비디오 프레임을 공간 패치로 분할하고 시간에 걸쳐 패치 시퀀스를 구성한다.
Local Sequence Transformer (LST)를 사용하여 self-attention 이전에 3D 컨볼루션으로 로우 레벨 시간적 특징을 강화한다.
얕은 Conv3D와 다단계 트랜스포머 블록을 통해 로우 레벨 시간 정보를 주입한다.
패치 임베딩 간의 글로벌 대조 일관성을 강제하기 위해 Cross-Patch Inconsistency (CPI) 손실을 적용한다.
Cross-Patch Aggregation (CPA) 및 클래스 토큰으로 로컬 정보를 모아 최종 이진 예측을 수행한다.
L = BCE + λ · L_CPI (λ = 1e-3)로 엔드투엔드로 학습한다.

실험 결과

연구 질문

RQ1로컬 패치의 시퀀스를 트랜스포머로 모델링하는 것이 보지 못한 딥페이크 방법에 대한 일반화를 향상시킬 수 있는가?
RQ2로컬 시간적 신호와 패치 간 일관성을 도입하면 포스트프로세싱 및 압축에 대한 강건성이 향상되는가?
RQ3CPI 손실과 CPA 모듈이 패치 레벨의 시간적 불일치를 탐지에 얼마나 효과적으로 활용되는가?

주요 결과

모델	CelebDF	DFDC	FaceSh	DeepFo	평균
CNN-GRU	69.8	68.9	80.8	74.1	73.4
Multi-task	75.5	68.1	66.0	77.7	71.9
PatchForensics	69.6	65.6	57.8	81.8	68.7
FWA	69.5	67.3	65.5	50.2	63.1
Face X-ray	79.5	65.5	92.8	86.8	81.2
PCL+I2G	90.0	67.5	-	99.4	85.6
SBI+EB4	89.9	74.9	97.4	77.7	85.0
LipForensics	82.4	73.5	97.1	97.6	87.7
FTCN-TT	86.9	74.0	98.8	98.8	89.6
LTTD (ours)	89.3	80.4	99.5	98.5	91.9

일반화 성능이 최첨단에 도달, FF++ (HQ)로 학습하고 다른 데이터셋에서 평균 91.9 AUC를 달성.
크로스-데이터셋 상황에서 다른 탐지기들을 능가 (CelebDF, DFDC, FaceSh, DeepFo).
일반적인 왜곡에 대한 강건성을 시연하며, 왜곡된 비디오에서 강한 평균 AUC를 보임(압축, 잡음, 흐림 등).
각 구성요소(LST, CPI, CPA)가 성능에 기여한다는 제거 실험 결과를 보였고, 전체 LTTD가 크로스-데이터셋에서 우수한 성능을 달성했다.
로컬 저수준 개선을 가진 시간적 패치 모델링은 의미 차원의 방법이나 순수 로우-레벨 방법보다 일반화 가능한 표현을 만들어내는 경향이 있다.
시각화 결과 LTTD는 실제/딥페이크 매니폴드를 하나로 형성하는 반면, 기존 CNN/ViT 베이스라인은 위조 방법별로 군집하는 경향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.