QUICK REVIEW

[논문 리뷰] Recurrent Convolutional Strategies for Face Manipulation Detection in Videos

Ekraam Sabir, Jiaxin Cheng|arXiv (Cornell University)|2019. 05. 02.

Digital Media Forensic Detection참고 문헌 47인용 수 337

한 줄 요약

논문은 얼굴 정렬을 포함한 얼굴-활용 회귀(convolutional) 프레임워크를 제안하여 비디오에서 조작된 얼굴을 탐지하고, 시간 정보를 활용하여 FaceForensics++에서 최첨단 정확도를 달성한다.

ABSTRACT

The spread of misinformation through synthetically generated yet realistic images and videos has become a significant problem, calling for robust manipulation detection methods. Despite the predominant effort of detecting face manipulation in still images, less attention has been paid to the identification of tampered faces in videos by taking advantage of the temporal information present in the stream. Recurrent convolutional models are a class of deep learning models which have proven effective at exploiting the temporal information from image streams across domains. We thereby distill the best strategy for combining variations in these models along with domain specific face preprocessing techniques through extensive experimentation to obtain state-of-the-art performance on publicly available video-based facial manipulation benchmarks. Specifically, we attempt to detect Deepfake, Face2Face and FaceSwap tampered faces in video streams. Evaluation is performed on the recently introduced FaceForensics++ dataset, improving the previous state-of-the-art by up to 4.55% in accuracy.

연구 동기 및 목표

비디오에서 조작된 얼굴 탐지 동기를 위해 공간 정보뿐 아니라 시간 상관관계를 활용한다.
얼굴 전처리(정렬)가 탐지 정확도에 미치는 영향을 평가한다.
비디오 조작 벤치마크에서 탐지 성능을 극대화하기 위한 아키텍처 선택(백본 CNN 및 순환 설계)을 탐구한다.

제안 방법

랜드마크 기반 정렬이나 Spatial Transformer Networks (STN)을 사용하여 비디오 프레임에서 얼굴 영역을 자르고 정렬한다.
정렬된 크롭의 시퀀스인 얼굴 튜브에서 작동하는 순환-합성 탐지기를 구성한다.
DenseNet 및 ResNet 변형의 백본 CNN을 따라 GRU 기반 순환을 적용하는 실험을 한다.
미세-중간-거시 특징을 포착하기 위해 단일 순환 대 다중 수준 순환을 비교한다.
FF++에서 이진 실제/가짜 지도(binary real/fake supervision)로 end-to-end 학습한다; 학습률 1e-4의 Adam 옵티마이저를 사용한다.

실험 결과

연구 질문

RQ1동영상의 시간 정보가 프레임 단위 단서를 넘어 얼굴 조작 탐지 성능을 향상시킬 수 있는가?
RQ2이 작업에서 명시적 랜드마크 기반 정렬이 암시적 정렬(STN)보다 우수한가?
RQ3어떤 백본(DenseNet vs ResNet)과 시간 전략(단일 대 다중 순환; 양방향 대 단방향)이 조작 유형 전반에서 최고의 성능을 낳는가?
RQ4FF++ 데이터 크기를 고려할 때 다중 수준 순환이 이로울까, 아니면 과적합 위험이 있는가?

주요 결과

표 1: 모델 변형, 프레임 수, 및 조작 유형별 정확도(FF++ 벤치마크).	표 2: 정렬 및 순환 변형이 성능에 미치는 영향.
Deepfake	1	93.46	94.8	94.5	96.1	96.4	-	-
Deepfake	5	-	94.6	94.7	96.0	96.7	94.9	96.9
Face2Face	1	89.8	90.25	90.65	89.31	87.18	-	-
Face2Face	5	-	90.25	89.8	92.4	93.21	93.05	94.35
FaceSwap	1	92.72	91.34	91.04	93.85	96.1	-	-
FaceSwap	5	-	90.95	93.11	95.07	95.8	95.4	96.3

랜드마크 기반 정렬과 양방향 GRU 순환을 사용하는 DenseNet이 최상의 성능을 달성한다.
얼굴 정렬은 정렬 없음 대비 탐지 정확도를 향상시킨다.
프레임 시퀀스(다섯 프레임 입력)를 사용하는 것이 단일 프레임 입력보다 더 우수하다.
양방향 순환이 단방향 순환보다 우수하다.
STN 기반 정렬 및 다중 순환 전략은 성능을 개선하지 못했고 안정성 저하 또는 과적합으로 이어질 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.