QUICK REVIEW

[논문 리뷰] Global Texture Enhancement for Fake Face Detection in the Wild

Zhengzhe Liu, Xiaojuan Qi|arXiv (Cornell University)|2020. 02. 01.

Generative Adversarial Networks and Image Synthesis참고 문헌 35인용 수 27

한 줄 요약

이 논문은 학습 가능한 그램 블록을 통해 글로벌 텍스처 표현을 활용함으로써 가짜 얼굴 탐지 성능을 향상시키는 새로운 CNN 아키텍처인 Gram-Net을 제안한다. GAN 간에 불변이고 이미지 왜곡에 강건한 강력한 장거리 텍스처 통계를 캡처함으로써, Gram-Net은 특히 교차 GAN 일반화 및 편집된 또는 천연 가짜 이미지 탐지에서 최신 기술 수준(SOTA) 성능을 달성하며, 미사용된 GAN에서 10% 이상, BigGAN가 생성한 천연 이미지에서 10% 이상의 성능 향상을 기록한다.

ABSTRACT

Generative Adversarial Networks (GANs) can generate realistic fake face images that can easily fool human beings.On the contrary, a common Convolutional Neural Network(CNN) discriminator can achieve more than 99.9% accuracyin discerning fake/real images. In this paper, we conduct an empirical study on fake/real faces, and have two important observations: firstly, the texture of fake faces is substantially different from real ones; secondly, global texture statistics are more robust to image editing and transferable to fake faces from different GANs and datasets. Motivated by the above observations, we propose a new architecture coined as Gram-Net, which leverages global image texture representations for robust fake image detection. Experimental results on several datasets demonstrate that our Gram-Net outperforms existing approaches. Especially, our Gram-Netis more robust to image editings, e.g. down-sampling, JPEG compression, blur, and noise. More importantly, our Gram-Net generalizes significantly better in detecting fake faces from GAN models not seen in the training phase and can perform decently in detecting fake natural images.

연구 동기 및 목표

실제 얼굴과 GAN에 의해 생성된 가짜 얼굴 간의 텍스처 내재적 차이를 이해하기 위해.
압축, 흐림, 크기 조정 등의 실제 세계 이미지 왜곡 상황에서 CNN 기반 탐지기가 실패하는 이유를 조사하기 위해.
다양한 GAN 모델과 새로운 이미지 소스에 걸쳐 탐지기의 강건성과 일반화 능력을 향상시키기 위해.
다른 GAN 아키텍처와 이미지 조작에 대해 불변인 글로벌 텍스처 통계를 캡처하는 방법을 개발하기 위해.

제안 방법

다양한 의미 수준에서 특징 맵으로부터 글로벌 텍스처 표현을 계산하는 학습 가능한 레이어인 그램 블록을 도입한다.
지역적 컨볼루션 특징에 글로벌 텍스처 컨텍스트를 보완하기 위해 그램 블록을 CNN 기반 아키텍처에 통합한다.
다양한 이미지 왜곡 상황에서 글로벌 텍스처 특징의 강건성을 분석하고 검증하기 위해 Gray-Level Co-occurrence Matrix(GLCM) 통계를 사용한다.
StyleGAN, PGGAN, DCGAN, DRAGAN, StarGAN을 포함한 다양한 GAN에 의해 생성된 이미지 및 실제 얼굴 데이터셋에서 Gram-Net을 종합적으로 훈련한다.
재훈련 없이도 BigGAN에서 생성된 자연적 가짜 이미지를 직접 탐지하기 위해 훈련된 모델을 적용함으로써, 제로샷 일반화 능력을 입증한다.
제안된 텍스처 표현의 이식 가능성과 일관성을 검증하기 위해, 그램 블록을 GAN의 판별기 내에 통합하여 StyleGAN을 미세조정한다.

실험 결과

연구 질문

RQ1실제 얼굴과 GAN에 의해 생성된 가짜 얼굴 간의 텍스처 통계는 어떻게 다를까?
RQ2기존의 CNN 기반 가짜 얼굴 탐지기가 이미지 편집(예: 압축 또는 흐림) 시에 실패하는 이유는 무엇일까?
RQ3지역적 특징보다 글로벌 텍스처 표현이 다양한 GAN 아키텍처와 이미지 왜곡에 더 불변적인가?
RQ4명시적으로 글로벌 텍스처 통계를 모델링하는 딥러닝 모델이, 새로운 GAN과 자연적 가짜 이미지로의 일반화 능력에서 더 나은 성능을 보일 수 있는가?

주요 결과

Gram-Net은 StarGAN과 같은 새로운 GAN 모델에서 생성된 가짜 얼굴 탐지에서 기준 모델 대비 10%의 정확도 향상을 기록한다.
흐릿한 이미지에서는 15% 향상, 노이즈가 있는 이미지에서는 13% 향상, 크기 조정된 이미지에서는 10% 향상, JPEG 압축된 이미지에서는 9% 향상된 성능을 기록한다.
BigGAN에서 생성된 자연적 가짜 이미지로의 일반화 능력이 뚜렷하게 향상되어, ImageNet 대비 BigGAN에서의 정확도가 80.29%에 도달하며, 다음으로 우수한 방법보다 10% 이상 높은 성능을 기록한다.
그램 블록을 GAN의 판별기 내에 삽입하여 훈련한 경우에도 Gram-Net은 뛰어난 성능을 유지함으로써, 제안된 텍스처 표현의 강건성을 확인한다.
다양한 데이터셋 평가 결과, FFHQ와 같은 더 현실적인 데이터셋에서 훈련하고 CelebA-HQ와 같은 덜 현실적인 데이터셋에서 테스트할 경우, Gram-Net은 기준 모델을 압도적으로 앞선다.
GLCM를 이용한 저수준 텍스처 분석 결과, 모든 거리 측정에서 실제 이미지가 가짜 이미지보다 항상 더 강한 텍스처 대비를 보이며, 본 연구의 核심 가정을 검증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.