[논문 리뷰] Delving into Sequential Patches for Deepfake Detection
본 논문은 딥페이크 탐지를 위한 Local- & Temporal-aware Transformer(LTTD)를 제안한다. 로컬 패치의 시퀀스를 Transformer 블록과 패치 간 일관성 메커니즘으로 모델링하여, 데이터셋 간 최첨단 일반화 및 강건성을 달성한다.
Recent advances in face forgery techniques produce nearly visually untraceable deepfake videos, which could be leveraged with malicious intentions. As a result, researchers have been devoted to deepfake detection. Previous studies have identified the importance of local low-level cues and temporal information in pursuit to generalize well across deepfake methods, however, they still suffer from robustness problem against post-processings. In this work, we propose the Local- & Temporal-aware Transformer-based Deepfake Detection (LTTD) framework, which adopts a local-to-global learning protocol with a particular focus on the valuable temporal information within local sequences. Specifically, we propose a Local Sequence Transformer (LST), which models the temporal consistency on sequences of restricted spatial regions, where low-level information is hierarchically enhanced with shallow layers of learned 3D filters. Based on the local temporal embeddings, we then achieve the final classification in a global contrastive way. Extensive experiments on popular datasets validate that our approach effectively spots local forgery cues and achieves state-of-the-art performance.
연구 동기 및 목표
- 본 연구의 목적은 보지 않은 위조 방법으로도 일반화되는 강건한 딥페이크 탐지를 모티브로 한다.
- 포스트프로세싱과 열화에 견디기 위해 로컬 저수준의 시간적 신호를 활용한다.
- 로컬 영역에서의 시간적 일관성을 강조하는 패치 시리즈 트랜스포머 프레임워크를 개발한다.
- 글로벌 의사결정을 위한 패치 수준 정보를 모으기 위해 CPI 손실과 CPA 모듈을 도입한다.
제안 방법
- 비디오 프레임을 공간 패치로 분할하고 시간에 걸쳐 패치 시퀀스를 구성한다.
- Local Sequence Transformer (LST)를 사용하여 self-attention 이전에 3D 컨볼루션으로 로우 레벨 시간적 특징을 강화한다.
- 얕은 Conv3D와 다단계 트랜스포머 블록을 통해 로우 레벨 시간 정보를 주입한다.
- 패치 임베딩 간의 글로벌 대조 일관성을 강제하기 위해 Cross-Patch Inconsistency (CPI) 손실을 적용한다.
- Cross-Patch Aggregation (CPA) 및 클래스 토큰으로 로컬 정보를 모아 최종 이진 예측을 수행한다.
- L = BCE + λ · L_CPI (λ = 1e-3)로 엔드투엔드로 학습한다.
실험 결과
연구 질문
- RQ1로컬 패치의 시퀀스를 트랜스포머로 모델링하는 것이 보지 못한 딥페이크 방법에 대한 일반화를 향상시킬 수 있는가?
- RQ2로컬 시간적 신호와 패치 간 일관성을 도입하면 포스트프로세싱 및 압축에 대한 강건성이 향상되는가?
- RQ3CPI 손실과 CPA 모듈이 패치 레벨의 시간적 불일치를 탐지에 얼마나 효과적으로 활용되는가?
주요 결과
| 모델 | CelebDF | DFDC | FaceSh | DeepFo | 평균 |
|---|---|---|---|---|---|
| CNN-GRU | 69.8 | 68.9 | 80.8 | 74.1 | 73.4 |
| Multi-task | 75.5 | 68.1 | 66.0 | 77.7 | 71.9 |
| PatchForensics | 69.6 | 65.6 | 57.8 | 81.8 | 68.7 |
| FWA | 69.5 | 67.3 | 65.5 | 50.2 | 63.1 |
| Face X-ray | 79.5 | 65.5 | 92.8 | 86.8 | 81.2 |
| PCL+I2G | 90.0 | 67.5 | - | 99.4 | 85.6 |
| SBI+EB4 | 89.9 | 74.9 | 97.4 | 77.7 | 85.0 |
| LipForensics | 82.4 | 73.5 | 97.1 | 97.6 | 87.7 |
| FTCN-TT | 86.9 | 74.0 | 98.8 | 98.8 | 89.6 |
| LTTD (ours) | 89.3 | 80.4 | 99.5 | 98.5 | 91.9 |
- 일반화 성능이 최첨단에 도달, FF++ (HQ)로 학습하고 다른 데이터셋에서 평균 91.9 AUC를 달성.
- 크로스-데이터셋 상황에서 다른 탐지기들을 능가 (CelebDF, DFDC, FaceSh, DeepFo).
- 일반적인 왜곡에 대한 강건성을 시연하며, 왜곡된 비디오에서 강한 평균 AUC를 보임(압축, 잡음, 흐림 등).
- 각 구성요소(LST, CPI, CPA)가 성능에 기여한다는 제거 실험 결과를 보였고, 전체 LTTD가 크로스-데이터셋에서 우수한 성능을 달성했다.
- 로컬 저수준 개선을 가진 시간적 패치 모델링은 의미 차원의 방법이나 순수 로우-레벨 방법보다 일반화 가능한 표현을 만들어내는 경향이 있다.
- 시각화 결과 LTTD는 실제/딥페이크 매니폴드를 하나로 형성하는 반면, 기존 CNN/ViT 베이스라인은 위조 방법별로 군집하는 경향을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.