QUICK REVIEW

[논문 리뷰] DeepRhythm: Exposing DeepFakes with Attentional Visual Heartbeat Rhythms

Qi Hua, Qing Guo|arXiv (Cornell University)|2020. 06. 13.

Non-Invasive Vital Sign Monitoring참고 문헌 68인용 수 52

한 줄 요약

DeepRhythm은 얼굴 영상의 심박 리듬을 모니터링하고 모션-확대 시각 신호 및 이중 공간-시간 주의를 활용하여 DeepFake를 탐지하며, 데이터셋 전반에 걸쳐 정확도와 견고성을 향상시킨다.

ABSTRACT

As the GAN-based face image and video generation techniques, widely known as DeepFakes, have become more and more matured and realistic, there comes a pressing and urgent demand for effective DeepFakes detectors. Motivated by the fact that remote visual photoplethysmography (PPG) is made possible by monitoring the minuscule periodic changes of skin color due to blood pumping through the face, we conjecture that normal heartbeat rhythms found in the real face videos will be disrupted or even entirely broken in a DeepFake video, making it a potentially powerful indicator for DeepFake detection. In this work, we propose DeepRhythm, a DeepFake detection technique that exposes DeepFakes by monitoring the heartbeat rhythms. DeepRhythm utilizes dual-spatial-temporal attention to adapt to dynamically changing face and fake types. Extensive experiments on FaceForensics++ and DFDC-preview datasets have confirmed our conjecture and demonstrated not only the effectiveness, but also the generalization capability of \emph{DeepRhythm} over different datasets by various DeepFakes generation techniques and multifarious challenging degradations.

연구 동기 및 목표

픽셀 도메인 아티팩트를 넘어 실시간 얼굴 비디오의 심박 리듬을 활용한 견고한 DeepFake 탐지를 목표로 한다.
심박 신호를 강조하기 위한 모션-확대 공간-시간 표현(MMSTR)을 도입한다.
다양한 얼굴 동역학 및 위조 유형에 적응하도록 이중-공간-시간 주의 네트워크를 설계한다.
FaceForensics++ 및 DFDC-preview 데이터셋에서 방법의 효과성과 견고성을 입증한다.
DeepRhythm이 DeepFake 생성 기법과 degradations에 대해 일반화되는지 보여준다.

제안 방법

심박 신호를 across-face ROI에 걸쳐 하이라이트하는 MMSTR 맵을 생성하는 모션-확대 공간-시간 표현(MMSTR)을 계산한다.
주의를 공간(사전 및 적응)과 시간(블록-레벨 및 프레임-레벨) 구성 요소로 분해하는 이중-공간-시간 주의 메커니즘을 모델링한다.
실제/가짜 분류를 위한 CNN(ResNet18)에 MMST 맵을 입력하고 보조 구성 요소(Meso-4 프레임-레벨 주의, LSTM 블록-레벨 시간 주의)를 가진 엔드-투-엔드 네트워크를 사용한다.
주의를 t(시간)와 s(공간)로 분해하여 y = phi((t · s^T) ⊙ X) 형태로 표현하고, s = s_p + s_a 및 t = t_b + t_f로 구성한다.
제작은 FaceForensics++ 부분 데이터로 학습하고 DFDC-preview에서의 교차 데이터셋 평가를 통해 일반화 및 degradations(JPEG, blur, noise, 시간 샘플링)에 대한 견고성을 검증한다.
어블레이션 연구는 ST 대비 MMSTR 입력, 단일 주의 vs 이중 주의, 엔드-투-엔드 vs 단계적 학습의 차이를 비교하여 MMSTR 및 이중-주의 설계의 이점을 보여준다.

실험 결과

연구 질문

RQ1비디오에서 포착된 심박 리듬 큐를 사용해 여러 DeepFake 방법 간에 실제 얼굴과 가짜 얼굴을 구분할 수 있는가?
RQ2MMSTR이 DeepFake 탐지에 있어 전통적 공간-시간 표현보다 심박 차이를 더 잘 드러내는가?
RQ3이중-공간-시간 주의가 단일 주의나 비주의 대비 얼굴 동역학, 가림, degradations에 대한 견고성을 향상시키는가?
RQ4DeepRhythm은 데이터셋(FaceForensics++ 및 DFDC-preview) 및 속임수 기법 전반에 걸쳐 얼마나 잘 일반화되는가?
RQ5제안된 프레임워크에서 엔드-투-엔드 학습과 모듈식 학습의 기여도는 어느 정도인가?

주요 결과

DeepRhythm은 Sub-dataset 및 ALL 데이터로 학습 시 FaceForensics++ 부분에서 최신 기준선(Bayer, Inception-ResNet V1, Xception, MesoNet)보다 더 높은 정확도를 달성한다.
ALL 데이터로 학습할 때 DeepRhythm은 DFDC-preview에서 경쟁력 있는 정확도를 달성하고 Xception을 능가하며 교차 데이터셋 설정에서 여러 기준선을 상회한다.
MMSTR(모션-확대 STR)은 표준 STR 대비 식별력을 크게 향상시키며 ST 베이스라인에 비해 현저한 이점을 보여준다.
이중-공간 주의(사전+적응) 및 이중-시간 주의(블록-레벨+프레임-레벨)는 상당한 성능 향상을 제공하며 엔드-투-엔드 학습이 최상의 결과를 낸다(DR-mmst-APBF-e2e).
어블레이션은 MMSTR만으로 ST 대비 평균 정확도를 약 0.217 증가시키고, 적응적 및 사전 공간 주의가 각각 약 0.061–0.0632의 추가 이득을 주며, 이중-시간 주의는 상당한 이득을 더해 최상의 엔드-투-엔드 모델로 귀결된다.
DeepRhythm은 JPEG, 흐림, 노이즈 및 시간 샘플링과 같은 degradations에 대한 견고함을 보이며 이러한 조건에서도 기준선보다 높은 성능을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.