[논문 리뷰] Two-Stream Neural Networks for Tampered Face Detection
이 논문은 tampered face detection을 위한 두-stream 네트워크를 제안한다: GoogLeNet 기반 얼굴 분류 스트림과 패치 기반 트리플 스트림이 steganalysis 특징을 활용하며, 새로운 SwapMe/FaceSwap 데이터셋에서 평가하여 최첨단 성과를 달성한다.
We propose a two-stream network for face tampering detection. We train GoogLeNet to detect tampering artifacts in a face classification stream, and train a patch based triplet network to leverage features capturing local noise residuals and camera characteristics as a second stream. In addition, we use two different online face swapping applications to create a new dataset that consists of 2010 tampered images, each of which contains a tampered face. We evaluate the proposed two-stream network on our newly collected dataset. Experimental results demonstrate the effectiveness of our method.
연구 동기 및 목표
- 단일 증거 기반 방법을 넘어 위조된 얼굴의 강건한 탐지를 목표로 한다.
- 고수준 시각 위조 흔적과 저수준 로컬 잡음 잔류 특징을 결합한다.
- 도전적인 얼굴 위변조 데이터셋에서 이중 스트림 아키텍처를 개발하고 평가한다.
제안 방법
- 다음의 두-stream 아키텍처를 제시: (1) tampering artifacts를 탐지하도록 학습된 GoogLeNet 기반의 얼굴 분류 스트림과 (2) 트리플 손실로 다듬은 steganalysis 특징을 사용하는 패치 기반 트리플 스트림.
- 128x128 패치에서 15000개의 트리플로 학습된 트리플 네트워크; 512-d 출력의 2층 완전 연결 임베더와 L2 정규화를 사용; 트리플 로스는 d(a,f(r(xa)))와 d(a,f(r(xp)))의 차이를 여유 m 만큼 가깝게 하도록 규정.
- 학습된 트리플 임베딩으로 각 이미지에서 위변조 패치를 로컬라이즈하기 위한 SVM 분류기를 사용; 최종 얼굴 위변조 점수는 두 스트림의 점수 융합으로 합산.
- SwapMe와 FaceSwap 두 얼굴 바꾸기 앱을 사용하여 각 부분집합에 대해 2010개의 위변조 이미지와 1400개의 정품 이미지를 만들어 훈련/테스트에 사용; 평가 방법은 ROC/AUC를 사용.
- 교차 애플리케이션 평가를 포함한 훈련 및 테스트 프로토콜(하나의 앱에서 학습하고 다른 앱에서 테스트)을 통해 서로 다른 위변조 기법에 대한 강인성을 평가한다.
실험 결과
연구 질문
- RQ1두 스트림 네트워크가 고수준의 위변조 자산과 저수준 steganalysis 특징을 함께 활용하여 위변조된 얼굴 탐지를 개선할 수 있는가?
- RQ2얼굴 분류 스트림과 패치 기반 트리플 스트림의 융합이 두 스트림 각각보다 더 나은 탐지 성능을 보이는가?
- RQ3교차 데이터셋 평가에서 SwapMe와 FaceSwap 간의 일반화 성능은 얼마나 잘 나타나는가?
주요 결과
- 두 스트림 융합은 두 스트림 중 하나만 사용할 때보다 더 높은 AUC를 달성한다(각 스트림에서 각각 0.927 vs. 0.854 및 0.875).
- 스테가노분석 특징과 SVM은 0.794 AUC에 도달하고 얼굴 분류 스트림은 0.854 AUC에 도달한다.
- 두-stream 네트워크는 SwapMe 테스트 세트에서 모든 베이스라인을 능가하며 AUC 0.927이다.
- 하드 JPEG 기반 로컬라이제이션 방법은 이중 JPEG 압축과 리사이징 효과로 SwapMe 데이터에서 성능이 저하되며; 제안된 접근법은 여전히 견고하다.
- CAM 시각화는 얼굴 분류기가 경계 이음매, 입술 근처의 뚜렷한 경계, 안경 주위의 흐림과 같은 이유를 학습해 위변조가 발생했을 때 학습된 신호를 검증한다.
- 이 방법은 보완 신호로서 유리: 시각적 위변조 흔적과 로컬 노이즈 잔류가 위변조 얼굴 탐지에 정보를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.