QUICK REVIEW

[논문 리뷰] FaceForensics: A Large-scale Video Dataset for Forgery Detection in Human Faces

Andreas Rössler, Davide Cozzolino|arXiv (Cornell University)|2018. 03. 24.

Digital Media Forensic Detection참고 문헌 3인용 수 362

한 줄 요약

FaceForensics를 소개하는 대규모 얼굴-조작 비디오 데이터셋(1004개 비디오에서 >50만 프레임)으로 위조 탐지 및 분할을 위한 벤치마크 및 기초 방법을 제공한다.

ABSTRACT

With recent advances in computer vision and graphics, it is now possible to generate videos with extremely realistic synthetic faces, even in real time. Countless applications are possible, some of which raise a legitimate alarm, calling for reliable detectors of fake videos. In fact, distinguishing between original and manipulated video can be a challenge for humans and computers alike, especially when the videos are compressed or have low resolution, as it often happens on social networks. Research on the detection of face manipulations has been seriously hampered by the lack of adequate datasets. To this end, we introduce a novel face manipulation dataset of about half a million edited images (from over 1000 videos). The manipulations have been generated with a state-of-the-art face editing approach. It exceeds all existing video manipulation datasets by at least an order of magnitude. Using our new dataset, we introduce benchmarks for classical image forensic tasks, including classification and segmentation, considering videos compressed at various quality levels. In addition, we introduce a benchmark evaluation for creating indistinguishable forgeries with known ground truth; for instance with generative refinement models.

연구 동기 및 목표

조작된 얼굴 비디오의 대규모 현실적 데이터세트를 제공하여 데이터 기반 forgery 탐지를 가능하게 한다.
다양한 압축 체제에서 위조 분류 및 픽셀 단위 분할을 벤치마크한다.
FaceForensics에서 최첨단 탐지기를 평가하고 향후 연구를 위한 기준선을 확립한다.
감지 강건성을 평가하기 위해 감독형 자동인코더 기반 정제 접근법을 탐구한다.

제안 방법

Face2Face 재연 협업 방법을 사용하여 Source-to-Target 및 Self-reenactment 조작을 생성하기 위해 1004개 YouTube 비디오에서 50만 프레임 이상 데이터셋을 생성한다.
분할 작업을 위한 수정된 영역의 초당 픽셀 마스크를 실제 Ground-truth로 제공한다.
압축 없이 및 압축된(쉬운 압축 및 어려운 압축) 비디오에서 다수의 학습기반 및 수작업 Forgery 탐지기를 평가한다.
얼굴 중심의 위조 분류를 위한 XceptionNet 및 다른 아키텍처를 슬라이딩 윈도우 접근법으로 픽셀 수준 분할에 적용한다.
위조의 시각적 품질을 개선하기 위해 VGGFace2에서 사전 학습된 Autoencoder 기반 정제 모델을 제안하고 탐지 가능성에 미치는 영향을 테스트한다.
Raw와 정제된 위조물의 사용자 연구를 통해 인지 품질을 평가한다.

실험 결과

연구 질문

RQ1다른 압축 수준에서 현실적이고 대규모 Face2Forensics 조작에 대해 현재 최첨단 탐지 접근법이 얼마나 잘 동작하는가?
RQ2데이터 기반 데이터셋이 비디오 속 얼굴에 대한 강력한 위조 분류 및 분할을 가능하게 하는가?
RQ3감독형 자동인코더 정제가 위조물의 시각적 품질을 개선하고, 그것이 분류기에 의한 탐지 가능성에 어떤 영향을 미치는가?

주요 결과

데이터셋은 1004개 비디오의 50만 프레임 이상과 source-to-target 및 self-reenactment 조작 및 Ground-truth 마스크를 포함한다.
분류 성능은 방법 및 압축 수준에 따라 달라진다; 딥 모델(XceptionNet)이 수작업 특징보다 압축 하에서 더 우수하며, no-c 및 easy-c에서 약 87–98%, hard-c에서 최대 87.81%의 정확도를 나타낸다.
CNN을 통한 위조 로컬라이제이션은 압축 없는 데이터에서 강력한 성능을 보이지만 압축으로 인해 저하되며, 테스트된 방법들 중 XceptionNet이 가장 강건하다.
Self-reenactment Ground-truth 데이터는 위조 현실감을 향상시키는 감독형 정제 학습을 가능하게 하며, 사용자 연구에서 정제된 위조물은 인간이 감지하기 어렵게 나타나 압축 하에서 특히 그렇다.
자동인코더 기반 정제기는 위반 영역(턱, 코, 볼)과 조명 정보를 개선하지만, 정제된 데이터를 사용해 학습된 모델의 탐지 정확도는 여전히 높다.
정량적 결과는 정제된 위조물이 128x128 입력에서 탐지를 다소 낮출 수 있음을 시사하지만, 고급 탐지기에 의해 여전히 강한 탐지 가능성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.