Skip to main content
QUICK REVIEW

[논문 리뷰] Delving into Sequential Patches for Deepfake Detection

Jiazhi Guan, Hang Zhou|arXiv (Cornell University)|2022. 07. 06.
Generative Adversarial Networks and Image Synthesis인용 수 21
한 줄 요약

본 논문은 딥페이크 탐지를 위한 Local- & Temporal-aware Transformer(LTTD)를 제안한다. 로컬 패치의 시퀀스를 Transformer 블록과 패치 간 일관성 메커니즘으로 모델링하여, 데이터셋 간 최첨단 일반화 및 강건성을 달성한다.

ABSTRACT

Recent advances in face forgery techniques produce nearly visually untraceable deepfake videos, which could be leveraged with malicious intentions. As a result, researchers have been devoted to deepfake detection. Previous studies have identified the importance of local low-level cues and temporal information in pursuit to generalize well across deepfake methods, however, they still suffer from robustness problem against post-processings. In this work, we propose the Local- & Temporal-aware Transformer-based Deepfake Detection (LTTD) framework, which adopts a local-to-global learning protocol with a particular focus on the valuable temporal information within local sequences. Specifically, we propose a Local Sequence Transformer (LST), which models the temporal consistency on sequences of restricted spatial regions, where low-level information is hierarchically enhanced with shallow layers of learned 3D filters. Based on the local temporal embeddings, we then achieve the final classification in a global contrastive way. Extensive experiments on popular datasets validate that our approach effectively spots local forgery cues and achieves state-of-the-art performance.

연구 동기 및 목표

  • 본 연구의 목적은 보지 않은 위조 방법으로도 일반화되는 강건한 딥페이크 탐지를 모티브로 한다.
  • 포스트프로세싱과 열화에 견디기 위해 로컬 저수준의 시간적 신호를 활용한다.
  • 로컬 영역에서의 시간적 일관성을 강조하는 패치 시리즈 트랜스포머 프레임워크를 개발한다.
  • 글로벌 의사결정을 위한 패치 수준 정보를 모으기 위해 CPI 손실과 CPA 모듈을 도입한다.

제안 방법

  • 비디오 프레임을 공간 패치로 분할하고 시간에 걸쳐 패치 시퀀스를 구성한다.
  • Local Sequence Transformer (LST)를 사용하여 self-attention 이전에 3D 컨볼루션으로 로우 레벨 시간적 특징을 강화한다.
  • 얕은 Conv3D와 다단계 트랜스포머 블록을 통해 로우 레벨 시간 정보를 주입한다.
  • 패치 임베딩 간의 글로벌 대조 일관성을 강제하기 위해 Cross-Patch Inconsistency (CPI) 손실을 적용한다.
  • Cross-Patch Aggregation (CPA) 및 클래스 토큰으로 로컬 정보를 모아 최종 이진 예측을 수행한다.
  • L = BCE + λ · L_CPI (λ = 1e-3)로 엔드투엔드로 학습한다.

실험 결과

연구 질문

  • RQ1로컬 패치의 시퀀스를 트랜스포머로 모델링하는 것이 보지 못한 딥페이크 방법에 대한 일반화를 향상시킬 수 있는가?
  • RQ2로컬 시간적 신호와 패치 간 일관성을 도입하면 포스트프로세싱 및 압축에 대한 강건성이 향상되는가?
  • RQ3CPI 손실과 CPA 모듈이 패치 레벨의 시간적 불일치를 탐지에 얼마나 효과적으로 활용되는가?

주요 결과

모델CelebDFDFDCFaceShDeepFo평균
CNN-GRU69.868.980.874.173.4
Multi-task75.568.166.077.771.9
PatchForensics69.665.657.881.868.7
FWA69.567.365.550.263.1
Face X-ray79.565.592.886.881.2
PCL+I2G90.067.5-99.485.6
SBI+EB489.974.997.477.785.0
LipForensics82.473.597.197.687.7
FTCN-TT86.974.098.898.889.6
LTTD (ours)89.380.499.598.591.9
  • 일반화 성능이 최첨단에 도달, FF++ (HQ)로 학습하고 다른 데이터셋에서 평균 91.9 AUC를 달성.
  • 크로스-데이터셋 상황에서 다른 탐지기들을 능가 (CelebDF, DFDC, FaceSh, DeepFo).
  • 일반적인 왜곡에 대한 강건성을 시연하며, 왜곡된 비디오에서 강한 평균 AUC를 보임(압축, 잡음, 흐림 등).
  • 각 구성요소(LST, CPI, CPA)가 성능에 기여한다는 제거 실험 결과를 보였고, 전체 LTTD가 크로스-데이터셋에서 우수한 성능을 달성했다.
  • 로컬 저수준 개선을 가진 시간적 패치 모델링은 의미 차원의 방법이나 순수 로우-레벨 방법보다 일반화 가능한 표현을 만들어내는 경향이 있다.
  • 시각화 결과 LTTD는 실제/딥페이크 매니폴드를 하나로 형성하는 반면, 기존 CNN/ViT 베이스라인은 위조 방법별로 군집하는 경향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.