Skip to main content
QUICK REVIEW

[논문 리뷰] Manipulated Face Detector: Joint Spatial and Frequency Domain Attention Network

Zehao Chen, Hua Yang|arXiv (Cornell University)|2020. 05. 06.
Face recognition and analysis참고 문헌 42인용 수 15
한 줄 요약

이 논문은 고품질으로 변조된 얼굴 이미지를 탐지하기 위해 공간 도메인과 주파수 도메인의 주의 메커니즘을 통합한 네트워크를 제안한다. 얼굴 의미 세그멘테이션(공간)과 이산 푸리에 변환(DFT, 주파수) 특징을 주의 메커니즘과 결합함으로써, 본 모델은 볼 수 있는 및 볼 수 없는 변조 데이터 모두에서 최신 기술 수준의 성능을 달성하며, 기존 방법에 비해 일반화 능력이 크게 향상된다.

ABSTRACT

Face manipulation methods develop rapidly in recent years, which can generate high quality manipulated face images. However, detection methods perform not well on data produced by state-of-the-art manipulation methods, and they lack of generalization ability. In this paper, we propose a novel manipulated face detector, which is based on spatial and frequency domain combination and attention mechanism. Spatial domain features are extracted by facial semantic segmentation, and frequency domain features are extracted by Discrete Fourier Transform. We use features both in spatial domain and frequency domain as inputs in proposed model. And we add attention-based layers to backbone networks, in order to improve its generalization ability. We evaluate proposed model on several datasets and compare it with other state-of-the-art manipulated face detection methods. The results show our model performs best on both seen and unseen data.

연구 동기 및 목표

  • 최신 기술 수준의 얼굴 변조 기법에 대해 기존의 변조된 얼굴 탐지 방법의 일반화 능력이 제한되어 있는 문제를 해결하기 위해.
  • 공간 도메인과 주파수 도메인에서 유용한 특징을 융합함으로써 탐지 성능을 향상시키기 위해.
  • 백본 네트워크에서 주의 기반 특징 학습을 통해 모델의 강건성과 일반화 능력을 향상시키기 위해.
  • 의미 표현과 스펙트럼 표현을 효과적으로 융합하는 통합 프레임워크를 개발하기 위해.

제안 방법

  • 고수준의 얼굴 구조와 이질성을 포착하기 위해 얼굴 의미 세그멘테이션을 사용하여 공간 도메인 특징을 추출한다.
  • 이산 푸리에 변환을 통해 주파수 스펙트럼에서의 전반적인 텍스처 및 구조적 왜곡을 모델링하기 위해 주파수 도메인 특징을 확보한다.
  • 공간 도메인과 주파수 도메인 특징을 네트워크의 초기 단계에서 융합하여 공동 표현 학습을 가능하게 한다.
  • 백본 네트워크에 주의 메커니즘을 통합하여 동적으로 구분 능력이 뛰어난 공간 및 주파수 특징을 강조한다.
  • 검출 성능 최적화를 위해 교차 엔트로피 손실을 사용하여 네트워크를 엔드 투 엔드로 훈련시킨다.
  • 다양한 변조 유형에 걸쳐 강건성을 평가하기 위해 여러 벤치마크 데이터셋에서 방법을 평가한다.

실험 결과

연구 질문

  • RQ1공간 도메인과 주파수 도메인 특징을 융합하면 고품질 변조된 얼굴 이미지에 대한 탐지 성능 향상에 기여하는가?
  • RQ2주의 기반 특징 학습은 볼 수 없는 변조 방법에 대한 일반화 능력을 어떻게 향상시키는가?
  • RQ3공간 및 주파수 표현을 조기에 융합하는 것이 모달리티별 또는 후기 융합 기법보다 더 나은 탐지 성능을 내는가?
  • RQ4제안된 모델은 볼 수 있는 및 볼 수 없는 변조 데이터 모두에서 최신 기술 수준의 방법과 비교해 어떻게 성능을 내는가?

주요 결과

  • 제안된 모델은 여러 벤치마크 데이터셋에서 볼 수 있는 및 볼 수 없는 데이터 모두에서 최고의 성능을 달성한다.
  • 주의 메커니즘의 통합은 모델이 볼 수 없는 변조 방법에 대해 일반화하는 능력을 크게 향상시킨다.
  • 공간(의미 세그멘테이션)과 주파수(DFT) 특징을 함께 사용할 경우, 각각의 모달리티를 별도로 사용하는 것보다 더 강력한 탐지 성능을 보인다.
  • 모델는 기존 최신 기술 수준의 방법보다 볼 수 없는 변조 유형에 대해 뛰어난 일반화 능력을 보이며, 더 뛰어난 성능을 내는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.