Skip to main content
QUICK REVIEW

[논문 리뷰] Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues

Yu-Yang Qian, Guojun Yin|arXiv (Cornell University)|2020. 07. 18.
Digital Media Forensic Detection참고 문헌 56인용 수 42
한 줄 요약

이 논문은 F3-Net을 소개하는데, 주파수 인지 분해(FAD)와 로컬 주파수 통계(LFS) 및 MixBlock 교차 주의 모듈을 사용하여 얼굴 위조를 탐지하며, 낮은 품질 압축 하에서 특히 FaceForensics++에서 최첨단 성능을 달성한다.

ABSTRACT

As realistic facial manipulation technologies have achieved remarkable progress, social concerns about potential malicious abuse of these technologies bring out an emerging research topic of face forgery detection. However, it is extremely challenging since recent advances are able to forge faces beyond the perception ability of human eyes, especially in compressed images and videos. We find that mining forgery patterns with the awareness of frequency could be a cure, as frequency provides a complementary viewpoint where either subtle forgery artifacts or compression errors could be well described. To introduce frequency into the face forgery detection, we propose a novel Frequency in Face Forgery Network (F3-Net), taking advantages of two different but complementary frequency-aware clues, 1) frequency-aware decomposed image components, and 2) local frequency statistics, to deeply mine the forgery patterns via our two-stream collaborative learning framework. We apply DCT as the applied frequency-domain transformation. Through comprehensive studies, we show that the proposed F3-Net significantly outperforms competing state-of-the-art methods on all compression qualities in the challenging FaceForensics++ dataset, especially wins a big lead upon low-quality media.

연구 동기 및 목표

  • 압축 및 RGB 공간에서 보기 어려운 미세한 아티팩트에 대한 견고한 얼굴 위조 탐지를 동기화한다.
  • 고주파 아티팩트와 압축 오류를 포착하는 주파수 인지 단서를 도입한다.
  • 주파수 분해 구성요소와 로컬 주파수 통계에서 협력적으로 학습하는 이중 스트림 아키텍처를 제안한다.

제안 방법

  • 주파수 도메인을 학습 가능한 대역으로 분할하고 여러 주파수 인지 이미지 구성요소를 재구성하는 Frequency-aware Decomposition (FAD)을 제안한다.
  • Sliding Window DCT(SWDCT)를 적용하여 로컬 주파수 응답을 추출하고 대역별 평균 응답을 집계하는 Local Frequency Statistics (LFS)를 제안한다.
  • FAD와 LFS를 위한 이중 스트림 백본(Xception)을 사용하고, Progressive fusion을 위한 교차 주의 MixBlock으로 연결한다.
  • cross-entropy 손실로 엔드투엔드 학습하며, FaceForensics++의 LQ/HQ/RAW 설정에서 평가한다.

실험 결과

연구 질문

  • RQ1주파수 인지 단서가 다양한 압축 품질에서 위조 탐지 성능을 향상시킬 수 있는가?
  • RQ2,

주요 결과

  • F3-Net은 LQ, HQ, RAW 설정 전반에서 FaceForensics++의 최첨단 방법을 능가하며, 특히 저품질 미디어에서 눈에 띄는 향상을 보인다.
  • 제거적 연구에서 FAD(주파수 인지 분해)와 LFS(로컬 주파수 통계) 각각이 성능에 기여하고, MixBlock이 추가 이득을 제공한다.
  • 고주파 구성요소가 위조 탐지에 특히 정보를 많이 제공하며, 모든 주파수 대역을 사용할 때 최상의 결과를 얻는다.
  • 교차 주의 융합이 있는 이중 스트림 프레임워크는 로스팅된 거짓 양성률에서 특히 ROC 특성을 향상시킨다.
  • SlowFast 백본을 이용한 비디오 확장은 결과를 further 개선하며 여러 지표에서 최상위를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.