QUICK REVIEW

[논문 리뷰] DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection

Liming Jiang, Li Ren|arXiv (Cornell University)|2020. 01. 09.

Digital Media Forensic Detection참고 문헌 43인용 수 65

한 줄 요약

DeeperForensics-1.0를 소개하는 대규모의 고품질 다양 얼굴 위조 데이터셋으로 60,000개의 비디오를 보유하고, 고충실도 얼굴 교환을 위한 DF-VAE를 제안한다; 숨겨진 테스트 세트를 포함하고 여러 베이스라인을 벤치마킹한다.

ABSTRACT

We present our on-going effort of constructing a large-scale benchmark for face forgery detection. The first version of this benchmark, DeeperForensics-1.0, represents the largest face forgery detection dataset by far, with 60,000 videos constituted by a total of 17.6 million frames, 10 times larger than existing datasets of the same kind. Extensive real-world perturbations are applied to obtain a more challenging benchmark of larger scale and higher diversity. All source videos in DeeperForensics-1.0 are carefully collected, and fake videos are generated by a newly proposed end-to-end face swapping framework. The quality of generated videos outperforms those in existing datasets, validated by user studies. The benchmark features a hidden test set, which contains manipulated videos achieving high deceptive scores in human evaluations. We further contribute a comprehensive study that evaluates five representative detection baselines and make a thorough analysis of different settings.

연구 동기 및 목표

실세계 얼굴 위조 탐지를 위한 대규모의 고품질 데이터셋을 제공하여 실제 상황과의 격차를 줄인다.
현실 세계 조건을 시뮬레이션하기 위한 다양한 perturbation을 도입한다.
고충실도 엔드투엔드 얼굴 교환 프레임워크(DF-VAE)를 제안하고 검증한다.
학습 분포를 넘어서는 견고함을 평가하기 위한 숨겨진 테스트 세트에서 위조 탐지의 벤치마크를 수행한다.

제안 방법

1920x1080 해상도의 고해상도 촬영을 가진 제어된 실내 환경에서 100명의 동의한 배우로부터 원본 비디오 데이터 수집.
구조와 외관을 분리해 견고하고 확장 가능한 얼굴 재연영상 및 다대다 교환을 위한 DF-VAE 개발.
스와핑된 얼굴의 공간적 스타일 매칭과 융합을 위한 마스킹된 적응 인스턴스 노멧화(MAdaIN) 도입.
플릭커 현상을 줄이기 위해 현재 프레임과 이전 프레임을 optical-flow 기반 손실로 연속성을 부여하는 제약.
현실성 및 다양성을 높이기 위해 manipulated 비디오에 7가지 교란 유형을 5단계 강도로 적용.
훈련 분포를 넘어서는 견고함을 평가하기 위한 400개의 고품질, 왜곡이 풍부한 manipulated 비디오로 이뤄진 숨겨진 테스트 세트.

실험 결과

연구 질문

RQ1데이터셋이 얼마나 크고 다양한지에 따라 실제 세계 시나리오용 위조 탐지기를 더 잘 학습시킬 수 있는가?
RQ2고충실도이고 확장 가능한 얼굴 교환 프레임워크(DF-VAE)가 벤치마킹에 적합한 현실적인 조작 비디오를 생성할 수 있는가?
RQ3일반적인 현실 세계 교란이 영상 기반 위조 탐지기의 성능에 어떤 영향을 미치는가?
RQ4숨겨진 분포 쉬프트 테스트 세트에서의 평가가 표준 분할에 비해 현재 탐지기의 격차를 드러내는가?

주요 결과

DeeperForensics-1.0은 60,000개의 비디오(1,760만 프레임)를 포함하며, 실영상 50,000건과 조작된 비디오 10,000건을 보유하고, 5단계 강도에서 7가지 교란 유형을 도입한다.
DF-VAE는 구조/외관 분리 및 MAdaIN 융합을 통해 스타일 불일치와 경계 인공물 감소와 함께 다대다 얼굴 재연을 가능하게 한다.
사람의 지각 연구에서 DeeperForensics-1.0이 이전 데이터셋보다 더 현실적이라고 평가되었으며, 규모가 더 크다는 점에도 불구하고 그렇다.
표준 세트로 학습된 베이스라인 비디오 위조 탐지기는 숨겨진 테스트 세트에서 견고성에 차이를 보였으며, 분포 쉬프트 평가의 중요성을 보여준다.
I3D는 표준 DeeperForensics-1.0 세트로 학습될 때 여러 베이스라인 중에서 숨김 테스트 정확도가 가장 높았으며, 탐지의 시간적 단서를 강조한다.
숨겨진 테스트 세트(400개 비디오)와 교란이 풍부한 조작은 기존 탐지기의 격차를 부각시키고 강건하고 실제 세계 벤치마킹의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.