Skip to main content
QUICK REVIEW

[논문 리뷰] Global Texture Enhancement for Fake Face Detection in the Wild

Zhengzhe Liu, Xiaojuan Qi|arXiv (Cornell University)|2020. 02. 01.
Generative Adversarial Networks and Image Synthesis참고 문헌 35인용 수 27
한 줄 요약

이 논문은 학습 가능한 그램 블록을 통해 글로벌 텍스처 표현을 활용함으로써 가짜 얼굴 탐지 성능을 향상시키는 새로운 CNN 아키텍처인 Gram-Net을 제안한다. GAN 간에 불변이고 이미지 왜곡에 강건한 강력한 장거리 텍스처 통계를 캡처함으로써, Gram-Net은 특히 교차 GAN 일반화 및 편집된 또는 천연 가짜 이미지 탐지에서 최신 기술 수준(SOTA) 성능을 달성하며, 미사용된 GAN에서 10% 이상, BigGAN가 생성한 천연 이미지에서 10% 이상의 성능 향상을 기록한다.

ABSTRACT

Generative Adversarial Networks (GANs) can generate realistic fake face images that can easily fool human beings.On the contrary, a common Convolutional Neural Network(CNN) discriminator can achieve more than 99.9% accuracyin discerning fake/real images. In this paper, we conduct an empirical study on fake/real faces, and have two important observations: firstly, the texture of fake faces is substantially different from real ones; secondly, global texture statistics are more robust to image editing and transferable to fake faces from different GANs and datasets. Motivated by the above observations, we propose a new architecture coined as Gram-Net, which leverages global image texture representations for robust fake image detection. Experimental results on several datasets demonstrate that our Gram-Net outperforms existing approaches. Especially, our Gram-Netis more robust to image editings, e.g. down-sampling, JPEG compression, blur, and noise. More importantly, our Gram-Net generalizes significantly better in detecting fake faces from GAN models not seen in the training phase and can perform decently in detecting fake natural images.

연구 동기 및 목표

  • 실제 얼굴과 GAN에 의해 생성된 가짜 얼굴 간의 텍스처 내재적 차이를 이해하기 위해.
  • 압축, 흐림, 크기 조정 등의 실제 세계 이미지 왜곡 상황에서 CNN 기반 탐지기가 실패하는 이유를 조사하기 위해.
  • 다양한 GAN 모델과 새로운 이미지 소스에 걸쳐 탐지기의 강건성과 일반화 능력을 향상시키기 위해.
  • 다른 GAN 아키텍처와 이미지 조작에 대해 불변인 글로벌 텍스처 통계를 캡처하는 방법을 개발하기 위해.

제안 방법

  • 다양한 의미 수준에서 특징 맵으로부터 글로벌 텍스처 표현을 계산하는 학습 가능한 레이어인 그램 블록을 도입한다.
  • 지역적 컨볼루션 특징에 글로벌 텍스처 컨텍스트를 보완하기 위해 그램 블록을 CNN 기반 아키텍처에 통합한다.
  • 다양한 이미지 왜곡 상황에서 글로벌 텍스처 특징의 강건성을 분석하고 검증하기 위해 Gray-Level Co-occurrence Matrix(GLCM) 통계를 사용한다.
  • StyleGAN, PGGAN, DCGAN, DRAGAN, StarGAN을 포함한 다양한 GAN에 의해 생성된 이미지 및 실제 얼굴 데이터셋에서 Gram-Net을 종합적으로 훈련한다.
  • 재훈련 없이도 BigGAN에서 생성된 자연적 가짜 이미지를 직접 탐지하기 위해 훈련된 모델을 적용함으로써, 제로샷 일반화 능력을 입증한다.
  • 제안된 텍스처 표현의 이식 가능성과 일관성을 검증하기 위해, 그램 블록을 GAN의 판별기 내에 통합하여 StyleGAN을 미세조정한다.

실험 결과

연구 질문

  • RQ1실제 얼굴과 GAN에 의해 생성된 가짜 얼굴 간의 텍스처 통계는 어떻게 다를까?
  • RQ2기존의 CNN 기반 가짜 얼굴 탐지기가 이미지 편집(예: 압축 또는 흐림) 시에 실패하는 이유는 무엇일까?
  • RQ3지역적 특징보다 글로벌 텍스처 표현이 다양한 GAN 아키텍처와 이미지 왜곡에 더 불변적인가?
  • RQ4명시적으로 글로벌 텍스처 통계를 모델링하는 딥러닝 모델이, 새로운 GAN과 자연적 가짜 이미지로의 일반화 능력에서 더 나은 성능을 보일 수 있는가?

주요 결과

  • Gram-Net은 StarGAN과 같은 새로운 GAN 모델에서 생성된 가짜 얼굴 탐지에서 기준 모델 대비 10%의 정확도 향상을 기록한다.
  • 흐릿한 이미지에서는 15% 향상, 노이즈가 있는 이미지에서는 13% 향상, 크기 조정된 이미지에서는 10% 향상, JPEG 압축된 이미지에서는 9% 향상된 성능을 기록한다.
  • BigGAN에서 생성된 자연적 가짜 이미지로의 일반화 능력이 뚜렷하게 향상되어, ImageNet 대비 BigGAN에서의 정확도가 80.29%에 도달하며, 다음으로 우수한 방법보다 10% 이상 높은 성능을 기록한다.
  • 그램 블록을 GAN의 판별기 내에 삽입하여 훈련한 경우에도 Gram-Net은 뛰어난 성능을 유지함으로써, 제안된 텍스처 표현의 강건성을 확인한다.
  • 다양한 데이터셋 평가 결과, FFHQ와 같은 더 현실적인 데이터셋에서 훈련하고 CelebA-HQ와 같은 덜 현실적인 데이터셋에서 테스트할 경우, Gram-Net은 기준 모델을 압도적으로 앞선다.
  • GLCM를 이용한 저수준 텍스처 분석 결과, 모든 거리 측정에서 실제 이미지가 가짜 이미지보다 항상 더 강한 텍스처 대비를 보이며, 본 연구의 核심 가정을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.