QUICK REVIEW

[논문 리뷰] Complement Face Forensic Detection and Localization with FacialLandmarks

Kritaphat Songsri-in, Stefanos Zafeiriou|arXiv (Cornell University)|2019. 10. 12.

Face recognition and analysis참고 문헌 34인용 수 26

한 줄 요약

이 논문은 130만 장의 이미지를 포함하고 있으며, 실사, GAN으로 생성된, 편집된 얼굴을 모두 포함하는 이중 마스크로 레이블링된 최초의 대규모 얼굴 위조 국소화 데이터셋을 소개한다. 이는 공간적 얼굴 특징점과 함께 탐지 및 국소화를 동시에 최적화하는 이중 브랜치 XceptionNet 모델을 제안하여, 특히 저화질 영상에서 국소화 정확도가 90.82% IoU에 도달함으로써 최신 기술 수준(SOTA)의 성능을 달성한다.

ABSTRACT

Recently, Generative Adversarial Networks (GANs) and image manipulating methods are becoming more powerful and can produce highly realistic face images beyond human recognition which have raised significant concerns regarding the authenticity of digital media. Although there have been some prior works that tackle face forensic classification problem, it is not trivial to estimate edited locations from classification predictions. In this paper, we propose, to the best of our knowledge, the first rigorous face forensic localization dataset, which consists of genuine, generated, and manipulated face images. In particular, the pristine parts contain face images from CelebA and FFHQ datasets. The fake images are generated from various GANs methods, namely DCGANs, LSGANs, BEGANs, WGAN-GP, ProGANs, and StyleGANs. Lastly, the edited subset is generated from StarGAN and SEFCGAN based on free-form masks. In total, the dataset contains about 1.3 million facial images labelled with corresponding binary masks. Based on the proposed dataset, we demonstrated that explicit adding facial landmarks information in addition to input images improves the performance. In addition, our proposed method consists of two branches and can coherently predict face forensic detection and localization to outperform the previous state-of-the-art techniques on the newly proposed dataset as well as the faceforecsic++ dataset especially on low-quality videos.

연구 동기 및 목표

부분적으로 편집된 얼굴에 대해서도 마스크 레이블이 부여된 대규모, 마스크 레이블이 있는 데이터셋이 부족한 문제를 해결한다.
기존 방법이 실사 또는 위조로만 분류할 뿐 국소화된 영역을 특정하지 못하는 한계를 극복한다.
깊이 신경망 모델에 공간적 얼굴 특징점 정보를 통합하여 국소화 성능을 향상시켜 사법 분석 성능을 개선한다.
통합된 모델을 개발하여 얼굴 위조 탐지 및 국소화를 동시에 예측함으로써 저화질 영상 입력에 대한 강건성을 향상시킨다.
전이 학습과 다중 작업 학습을 활용하여 향후 연구를 위한 강력한 베이스라인을 구축한다.

제안 방법

130만 장의 이미지를 포함하는 대규모 얼굴 위조 국소화 데이터셋을 구축하며, 원본(celebA, FFHQ), GAN으로 생성된(디씨간, 스타일제너레이터 등), 편집된(스타제너레이터, 세프제너레이터 등) 얼굴을 포함하고 각각 이진 마스크로 레이블링한다.
이중 브랜치 XceptionNet 아키텍처를 설계: 하나의 브랜치는 분류(실사 대 위조), 다른 하나는 세그멘테이션(마스크 예측)을 담당하여 공동 학습이 가능하도록 한다.
국소화 정확도 향상을 위해 공간적 얼굴 특징점 정보를 보조 입력으로 통합하여 특징 표현을 강화한다.
다중 작업 학습을 적용하여 학습 중에 분류 및 국소화 헤드를 동시에 최적화함으로써 일반화 능력과 특징 정렬을 향상시킨다.
ImageNet의 사전 학습된 XceptionNet을 활용하여 특징을 추출하고, 이를 위조 탐지 및 국소화 작업에 적응시킨다.
학습 중에 종합적 손실 조합을 적용하여 분류 및 국소화 예측을 동시에 최적화함으로써 모델의 일관성과 성능을 향상시킨다.

실험 결과

연구 질문

RQ1마스크 레이블이 부여된 대규모 데이터셋은 분할 레이블이 없는 기존 데이터셋에 비해 얼굴 위조 국소화 모델의 성능을 크게 향상시킬 수 있는가?
RQ2공간적 얼굴 특징점 정보를 통합하면 딥 러닝 모델의 얼굴 위조 탐지 및 국소화 정확도가 향상되는가?
RQ3분류 및 국소화를 동시에 최적화하는 이중 브랜치 네트워크 아키텍처가 단일 작업 모델보다 위조된 얼굴을 탐지하고 국소화하는 데서 더 우수한 성능을 낼 수 있는가?
RQ4제안된 방법의 성능은 다양한 영상 품질 수준에서 어떻게 변화하는가? 특히 위조 증상이 뚜렷하지 않은 저화질 환경에서 어떻게 되는가?
RQ5저화질 영상 환경에서 픽셀 수준의 신호가 떨어질 경우 얼굴 특징점은 얼마나 강건성에 기여하는가?

주요 결과

FaceForensic++ 데이터셋에서 고화질 영상에서는 이진 탐지 정확도가 96.58%에 도달하고, 저화질 영상(압축률 23)에서는 89.33%를 기록하여 기존 SOTA 방법보다 저화질 설정에서 뛰어난 성능을 보였다.
제안된 데이터셋에서 모델은 99.20%의 얼굴 위조 이진 탐지(FBD) 정확도를 기록했으며, 마스크 예측을 사용할 경우 99.25%에 도달하여 강력한 분류 성능를 입증했다.
저화질 영상에서 얼굴 위조 국소화에 대해 90.82% IoU를 달성하여 기준 XceptionNet(90.40%) 및 기타 SOTA 방법을 초월했다.
제거 실험 결과, 얼굴 특징점 정보를 추가하면 모든 지표에서 성능 향상이 확인되었으며, 특징점이 없는 모델 대비 FBD 정확도는 0.32%p, 국소화 정확도는 0.39%p 향상되었다.
공동 학습을 통한 이중 브랜치 아키텍처는 모든 평가 과제에서 단일 브랜치 모델보다 뛰어난 성능을 보였으며, 얼굴 유형 분류(98.67%) 및 소스 분류(98.27%)에서도 유사한 결과를 기록했다.
정성적 결과에서는 위조 영역의 정확한 국소화가 가능했으며, 히트맵 분석 결과 예측 마스크와 진짜 마스크 간의 겹침이 높은 편이었지만, Face2Face 편집과 같은 모호한 경우에서는 일부 오차가 관찰되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.