QUICK REVIEW

[논문 리뷰] Two-Stream Neural Networks for Tampered Face Detection

Peng Zhou, Xintong Han|arXiv (Cornell University)|2018. 03. 29.

Digital Media Forensic Detection참고 문헌 15인용 수 57

한 줄 요약

이 논문은 tampered face detection을 위한 두-stream 네트워크를 제안한다: GoogLeNet 기반 얼굴 분류 스트림과 패치 기반 트리플 스트림이 steganalysis 특징을 활용하며, 새로운 SwapMe/FaceSwap 데이터셋에서 평가하여 최첨단 성과를 달성한다.

ABSTRACT

We propose a two-stream network for face tampering detection. We train GoogLeNet to detect tampering artifacts in a face classification stream, and train a patch based triplet network to leverage features capturing local noise residuals and camera characteristics as a second stream. In addition, we use two different online face swapping applications to create a new dataset that consists of 2010 tampered images, each of which contains a tampered face. We evaluate the proposed two-stream network on our newly collected dataset. Experimental results demonstrate the effectiveness of our method.

연구 동기 및 목표

단일 증거 기반 방법을 넘어 위조된 얼굴의 강건한 탐지를 목표로 한다.
고수준 시각 위조 흔적과 저수준 로컬 잡음 잔류 특징을 결합한다.
도전적인 얼굴 위변조 데이터셋에서 이중 스트림 아키텍처를 개발하고 평가한다.

제안 방법

다음의 두-stream 아키텍처를 제시: (1) tampering artifacts를 탐지하도록 학습된 GoogLeNet 기반의 얼굴 분류 스트림과 (2) 트리플 손실로 다듬은 steganalysis 특징을 사용하는 패치 기반 트리플 스트림.
128x128 패치에서 15000개의 트리플로 학습된 트리플 네트워크; 512-d 출력의 2층 완전 연결 임베더와 L2 정규화를 사용; 트리플 로스는 d(a,f(r(xa)))와 d(a,f(r(xp)))의 차이를 여유 m 만큼 가깝게 하도록 규정.
학습된 트리플 임베딩으로 각 이미지에서 위변조 패치를 로컬라이즈하기 위한 SVM 분류기를 사용; 최종 얼굴 위변조 점수는 두 스트림의 점수 융합으로 합산.
SwapMe와 FaceSwap 두 얼굴 바꾸기 앱을 사용하여 각 부분집합에 대해 2010개의 위변조 이미지와 1400개의 정품 이미지를 만들어 훈련/테스트에 사용; 평가 방법은 ROC/AUC를 사용.
교차 애플리케이션 평가를 포함한 훈련 및 테스트 프로토콜(하나의 앱에서 학습하고 다른 앱에서 테스트)을 통해 서로 다른 위변조 기법에 대한 강인성을 평가한다.

실험 결과

연구 질문

RQ1두 스트림 네트워크가 고수준의 위변조 자산과 저수준 steganalysis 특징을 함께 활용하여 위변조된 얼굴 탐지를 개선할 수 있는가?
RQ2얼굴 분류 스트림과 패치 기반 트리플 스트림의 융합이 두 스트림 각각보다 더 나은 탐지 성능을 보이는가?
RQ3교차 데이터셋 평가에서 SwapMe와 FaceSwap 간의 일반화 성능은 얼마나 잘 나타나는가?

주요 결과

두 스트림 융합은 두 스트림 중 하나만 사용할 때보다 더 높은 AUC를 달성한다(각 스트림에서 각각 0.927 vs. 0.854 및 0.875).
스테가노분석 특징과 SVM은 0.794 AUC에 도달하고 얼굴 분류 스트림은 0.854 AUC에 도달한다.
두-stream 네트워크는 SwapMe 테스트 세트에서 모든 베이스라인을 능가하며 AUC 0.927이다.
하드 JPEG 기반 로컬라이제이션 방법은 이중 JPEG 압축과 리사이징 효과로 SwapMe 데이터에서 성능이 저하되며; 제안된 접근법은 여전히 견고하다.
CAM 시각화는 얼굴 분류기가 경계 이음매, 입술 근처의 뚜렷한 경계, 안경 주위의 흐림과 같은 이유를 학습해 위변조가 발생했을 때 학습된 신호를 검증한다.
이 방법은 보완 신호로서 유리: 시각적 위변조 흔적과 로컬 노이즈 잔류가 위변조 얼굴 탐지에 정보를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.