QUICK REVIEW

[논문 리뷰] Detecting Photoshopped Faces by Scripting Photoshop

Sheng-Yu Wang, Oliver Wang|arXiv (Cornell University)|2019. 06. 13.

Digital Media Forensic Detection참고 문헌 38인용 수 28

한 줄 요약

이 논문은 Photoshop의 Face-Aware Liquify 도구를 사용해 자동으로 생성한 가짜 이미지로 훈련된 CNN을 활용해 이미지 내 얼굴 왜곡을 탐지하고 복원하는 딥러닝 방법을 제안한다. 모델은 인간을 능가하는 정밀도로 미세한 조작을 탐지하고, 높은 정확도로 편집 영역을 국소화하며, 실제 예술가가 만든 가짜 이미지에 대해서도 왜곡을 '취소'함으로써 원본 이미지를 복원할 수 있다.

ABSTRACT

Most malicious photo manipulations are created using standard image editing tools, such as Adobe Photoshop. We present a method for detecting one very popular Photoshop manipulation -- image warping applied to human faces -- using a model trained entirely using fake images that were automatically generated by scripting Photoshop itself. We show that our model outperforms humans at the task of recognizing manipulated images, can predict the specific location of edits, and in some cases can be used to "undo" a manipulation to reconstruct the original, unedited image. We demonstrate that the system can be successfully applied to real, artist-created image manipulations.

연구 동기 및 목표

이미지 위조의 일반적이지만 감지하기 어려운 형태인 미세한 얼굴 왜곡 조작을 탐지하는 것.
이미지 정밀 감시 분야에서 레이블이 부여된 훈련 데이터의 부족 문제를 해결하기 위해 Photoshop 스크립팅을 사용해 자동으로 현실적인 가짜 이미지를 생성하는 것.
조작을 탐지할 뿐 아니라 局부 왜곡 필드를 예측하고 이미지 복원을 가능하게 하는 모델을 개발하는 것.
JPEG 압축 및 소셜 미디어 재업로드와 같은 실제 웹 환경의 후처리 작업에 대한 강건성을 평가하는 것.
기존의 GAN 기반 딥페이크를 넘어서, 표준 도구인 Photoshop과 같은 일반적인 도구로 수행된 미세한 편집에도 적용 가능한 정밀 감시 기술로 확장하는 것.

제안 방법

실제 얼굴 이미지의 대규모 데이터셋을 Flickr와 Open Images에서 크롤링하여 소스 자료로 사용한다.
Photoshop의 Face-Aware Liquify 도구를 스크립팅하여 랜덤이고 고수준의 의미적 왜곡 조작(예: 코 넓이 증가, 눈 간격 감소 등)을 적용해 현실적인 가짜 훈련 이미지를 생성한다.
쌍체의 실사-가짜 이미지 쌍을 기반으로 CNN을 훈련시켜 전반적인 조작 탐지와 유량 왜곡, 상대적 왜곡 유지, 픽셀 수준의 재구성 손실을 조합한 방식으로 局부 왜곡 필드를 예측한다.
국소 예측 모델은 공간 정확도를 향상시키기 위해 다중 손실 목적함수를 사용한다.
편집이 탐지된 영역을 강조하는 시각화 오버레이를 생성하고, 역왜곡을 적용하여 원본 이미지를 복원하는 시도를 한다.
Facetune 및 Snapchat Lens Studio로 제작된 실제 웹 환경의 조작에 대해 평가하여, 훈련 도구를 초월한 일반화 능력을 입증한다.

실험 결과

연구 질문

RQ1인간이 레이블링한 훈련 데이터 없이도 자동 생성된 가짜 이미지로만 훈련된 딥러닝 모델이 높은 정확도로 얼굴 왜곡을 탐지할 수 있는가?
RQ2모델이 이미지 복원이 가능하도록 충분한 정밀도로 얼굴 왜곡 영역을 정확히 국소화할 수 있는가?
RQ3훈련 중에 보지 못한 실제 예술가가 만든 조작에 대해 모델은 어떻게 성능을 내는가?
RQ4JPEG 압축 및 소셜 미디어 재업로드와 같은 후처리 작업에 대해 모델의 강건성은 어떠한가?
RQ5Facetune 및 Snapchat Lens Studio와 같은 다른 편집 도구로 수행된 왜곡에도 모델이 일반화 가능한가?

주요 결과

데이터 증강을 적용한 저해상도 테스트 세트에서 모델은 67.0%의 정확도와 79.6%의 평균 정밀도를 기록했으며, 인간 성능(53.5% 정확도)을 크게 뛰어넘었다.
국소 예측 모델은 평균 EPE(End-Point Error)가 0.91로, 왜곡 필드를 예측할 때 높은 공간 정확도를 보였다.
Facebook 후처리 이미지에 대해 데이터 증강을 적용한 모델은 강력한 성능(67.0% 정확도, 79.6% AP)을 유지했으며, 고해상도 모델은 일반화에 실패했다.
예술가가 만든 테스트 세트에서 평균 PSNR가 +2.21 dB 향상되어, 부분적이지만 의미 있는 복원 성능을 입증했다.
Photoshop 외 도구인 Facetune 및 Snapchat Lens Studio로 제작된 편집에 대해서도 합리적인 '취소' 예측을 생성하여, 훈련 도구를 초월한 일반화 능력을 보였다.
극단적인 분포 외부 조작(예: 머리카락이나 몸에 일반적인 Liquify 도구 적용)에는 실패했지만, 여전히 우연보다 높은 성능(64.0% 정확도, 85.6% AP)을 기록하여 어느 정도의 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.