[논문 리뷰] DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery Detection
DeeperForensics-1.0를 소개하는 대규모의 고품질 다양 얼굴 위조 데이터셋으로 60,000개의 비디오를 보유하고, 고충실도 얼굴 교환을 위한 DF-VAE를 제안한다; 숨겨진 테스트 세트를 포함하고 여러 베이스라인을 벤치마킹한다.
We present our on-going effort of constructing a large-scale benchmark for face forgery detection. The first version of this benchmark, DeeperForensics-1.0, represents the largest face forgery detection dataset by far, with 60,000 videos constituted by a total of 17.6 million frames, 10 times larger than existing datasets of the same kind. Extensive real-world perturbations are applied to obtain a more challenging benchmark of larger scale and higher diversity. All source videos in DeeperForensics-1.0 are carefully collected, and fake videos are generated by a newly proposed end-to-end face swapping framework. The quality of generated videos outperforms those in existing datasets, validated by user studies. The benchmark features a hidden test set, which contains manipulated videos achieving high deceptive scores in human evaluations. We further contribute a comprehensive study that evaluates five representative detection baselines and make a thorough analysis of different settings.
연구 동기 및 목표
- 실세계 얼굴 위조 탐지를 위한 대규모의 고품질 데이터셋을 제공하여 실제 상황과의 격차를 줄인다.
- 현실 세계 조건을 시뮬레이션하기 위한 다양한 perturbation을 도입한다.
- 고충실도 엔드투엔드 얼굴 교환 프레임워크(DF-VAE)를 제안하고 검증한다.
- 학습 분포를 넘어서는 견고함을 평가하기 위한 숨겨진 테스트 세트에서 위조 탐지의 벤치마크를 수행한다.
제안 방법
- 1920x1080 해상도의 고해상도 촬영을 가진 제어된 실내 환경에서 100명의 동의한 배우로부터 원본 비디오 데이터 수집.
- 구조와 외관을 분리해 견고하고 확장 가능한 얼굴 재연영상 및 다대다 교환을 위한 DF-VAE 개발.
- 스와핑된 얼굴의 공간적 스타일 매칭과 융합을 위한 마스킹된 적응 인스턴스 노멧화(MAdaIN) 도입.
- 플릭커 현상을 줄이기 위해 현재 프레임과 이전 프레임을 optical-flow 기반 손실로 연속성을 부여하는 제약.
- 현실성 및 다양성을 높이기 위해 manipulated 비디오에 7가지 교란 유형을 5단계 강도로 적용.
- 훈련 분포를 넘어서는 견고함을 평가하기 위한 400개의 고품질, 왜곡이 풍부한 manipulated 비디오로 이뤄진 숨겨진 테스트 세트.
실험 결과
연구 질문
- RQ1데이터셋이 얼마나 크고 다양한지에 따라 실제 세계 시나리오용 위조 탐지기를 더 잘 학습시킬 수 있는가?
- RQ2고충실도이고 확장 가능한 얼굴 교환 프레임워크(DF-VAE)가 벤치마킹에 적합한 현실적인 조작 비디오를 생성할 수 있는가?
- RQ3일반적인 현실 세계 교란이 영상 기반 위조 탐지기의 성능에 어떤 영향을 미치는가?
- RQ4숨겨진 분포 쉬프트 테스트 세트에서의 평가가 표준 분할에 비해 현재 탐지기의 격차를 드러내는가?
주요 결과
- DeeperForensics-1.0은 60,000개의 비디오(1,760만 프레임)를 포함하며, 실영상 50,000건과 조작된 비디오 10,000건을 보유하고, 5단계 강도에서 7가지 교란 유형을 도입한다.
- DF-VAE는 구조/외관 분리 및 MAdaIN 융합을 통해 스타일 불일치와 경계 인공물 감소와 함께 다대다 얼굴 재연을 가능하게 한다.
- 사람의 지각 연구에서 DeeperForensics-1.0이 이전 데이터셋보다 더 현실적이라고 평가되었으며, 규모가 더 크다는 점에도 불구하고 그렇다.
- 표준 세트로 학습된 베이스라인 비디오 위조 탐지기는 숨겨진 테스트 세트에서 견고성에 차이를 보였으며, 분포 쉬프트 평가의 중요성을 보여준다.
- I3D는 표준 DeeperForensics-1.0 세트로 학습될 때 여러 베이스라인 중에서 숨김 테스트 정확도가 가장 높았으며, 탐지의 시간적 단서를 강조한다.
- 숨겨진 테스트 세트(400개 비디오)와 교란이 풍부한 조작은 기존 탐지기의 격차를 부각시키고 강건하고 실제 세계 벤치마킹의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.