[논문 리뷰] Deepfake Detection using Spatiotemporal Convolutional Networks
본 논문은 Celeb-DF v2에서 Deepfake 탐지를 위해 시공간 합성곱 네트워크를 평가하고, 시간 정보를 활용하는 비디오 기반 방법이 프레임 기반 기준선보다 우수하다는 것을 보여주며, 테스트된 모델들 중 R3D가 최고 성능을 달성한다.
Better generative models and larger datasets have led to more realistic fake videos that can fool the human eye but produce temporal and spatial artifacts that deep learning approaches can detect. Most current Deepfake detection methods only use individual video frames and therefore fail to learn from temporal information. We created a benchmark of the performance of spatiotemporal convolutional methods using the Celeb-DF dataset. Our methods outperformed state-of-the-art frame-based detection methods. Code for our paper is publicly available at https://github.com/oidelima/Deepfake-Detection.
연구 동기 및 목표
- 시간 정보를 프레임별 분석보다 탐지에 활용해야 할 필요성에 대한 동기 부여.
- Celeb-DF v2 데이터셋에서 여러 시공간 아키텍처를 벤치마크.
- 가짜 영상 탐지를 위해 시간 특징을 효과적으로 활용하는 아키텍처 식별.
제안 방법
- RetinaFace를 사용한 얼굴 자르기 전처리를 통해 잘려진 얼굴 비디오 클립을 생성.
- Kinetics에서 사전학습된 여러 시공간 넷(R3D, MC3, R(2+1)D, I3D 등)을 평가하고 프레임 기반 기준선과 비교.
- 각 모델을 Celeb-DF v2에서 데이터 증강(무작위 자르기, 시간 변동)으로 학습.
- Momentum 0.9의 SGD와 가중치 감소 0.0005, 학습률 0.001을 10배씩 10 에포크마다 감소.
- ROC-AUC와 top-1 정확도로 성능 평가, Celeb-DF 테스트 세트에서 결과 보고.
실험 결과
연구 질문
- RQ1시계열 정보를 모델링하는 시공간 합성곱 신경망이 Celeb-DF v2에서 프레임 기반 Deepfake 탐지기보다 우수한가?
- RQ2어떤 시공간 아키텍처(R3D, MC3, R2+1D, I3D)가 정확도와 효율성 사이의 최적의 타협을 제공하는가?
- RQ3액션 인식 데이터(Kinetics)에서 사전학습이 Celeb-DF v2의 Deepfake 탐지 성능에 어떤 영향을 미치는가?
주요 결과
- 시공간 모델이 Celeb-DF v2에서 ROC-AUC와 정확도에서 프레임 기반 기준선보다 우수하다.
- R3D가 평가된 시공간 모델 중에서 가장 높은 ROC-AUC와 정확도를 달성한다(99.73% ROC-AUC, 98.26% 정확도).
- I3D와 MC3도 ROC-AUC가 약 97–99% 범위와 높은 정확도로 높은 성능을 보인다.
- R2Plus1D가 ROC-AUC 99.43% 및 정확도 98.07%를 달성한다.
- 모든 결과는 시계열 모델링이 Celeb-DF v2와 같은 도전적인 데이터셋에서 Deepfake 탐지에 탐지 가능한 이점을 제공한다는 것을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.