QUICK REVIEW

[논문 리뷰] Learning Rich Features for Image Manipulation Detection

Peng Zhou, Xintong Han|arXiv (Cornell University)|2018. 05. 13.

Digital Media Forensic Detection참고 문헌 24인용 수 82

한 줄 요약

RGB tampering artifacts와 SRM 기반 잡음 특징을 결합하여 변조 영역을 탐지하는 두-스트림 Faster R-CNN은 여러 데이터셋에서 최첨단 성과를 달성하고 리사이징/압축에 대한 견고성을 보인다.

ABSTRACT

Image manipulation detection is different from traditional semantic object detection because it pays more attention to tampering artifacts than to image content, which suggests that richer features need to be learned. We propose a two-stream Faster R-CNN network and train it endto- end to detect the tampered regions given a manipulated image. One of the two streams is an RGB stream whose purpose is to extract features from the RGB image input to find tampering artifacts like strong contrast difference, unnatural tampered boundaries, and so on. The other is a noise stream that leverages the noise features extracted from a steganalysis rich model filter layer to discover the noise inconsistency between authentic and tampered regions. We then fuse features from the two streams through a bilinear pooling layer to further incorporate spatial co-occurrence of these two modalities. Experiments on four standard image manipulation datasets demonstrate that our two-stream framework outperforms each individual stream, and also achieves state-of-the-art performance compared to alternative methods with robustness to resizing and compression.

연구 동기 및 목표

이미지 내용에만 의존하기보다 변조 아티팩트를 탐지하기 위한 풍부한 특징 학습의 필요성을 제시한다.
RGB 시각적 신호와 잡음 기반 특징을 통합하는 두-스트림 아키텍처를 제안하여 변조 위치를 로컬라이즈한다.
변조 영역의 로컬라이즈와 변조 유형의 분류를 위해 엔드-투-엔드로 학습한다.
리사이징 및 JPEG 압축과 같은 일반적인 후처리에 대한 견고함을 입증한다.

제안 방법

SRM 필터를 기반으로 한 잡음 스트림과 RGB 스트림을 갖춘 두-스트림 Faster R-CNN.
RPN 제안은 RGB 특징으로부터 생성되어 가능성이 높은 조작 영역을 찾아낸다.
잡음 스트림은 SRM 필터 레이어를 통해 RGB 입력을 처리하여 로컬 잡음 특징을 추출한다.
양선형 풀링 fRGB^T fN은 두 스트림의 RoI 특징을 융합하여 변조 분류를 수행한다.
메모리를 감소시키면서 특징 간 교호작용을 보존하기 위해 컴팩트 양선형 풀링을 사용한다.
손실은 RPN 손실, 변조 분류 손실, 경계 상자 회귀 손실을 결합한다.

실험 결과

연구 질문

RQ1RGB 변조 아티팩트와 로컬 노이즈 불일치를 모두 활용하는 두-스트림 아키텍처가 이미지 조작 탐지에서 단일 스트림 접근법을 능가할 수 있는가?
RQ2양선형 풀링을 통한 RGB 및 잡음 특징의 융합이 위치 추정과 변조 분류 모두에 어떤 이점을 제공하는가?
RQ3제안된 방법은 리사이징 및 JPEG 압축과 같은 일반적인 후처리에 대해 얼마나 견고한가?
RQ4모델이 데이터셋 전반에서 서로 다른 변조 기법(splicing, removal, copy-move)을 구분할 수 있는가?

주요 결과

두-스트림 RGB-N 네트워크는 네 가지 표준 데이터셋에서 각 개별 스트림보다 우수하다
이 구성을 보면 RGB 특징이 노이즈 특징보다 RPN 제안 생성에 더 적합하다
양선형 풀링을 통한 융합은 지연 융합 기반 기법을 넘어서는 변조 분류 및 위치 추정을 향상시킨다
합성 예비학습에서 RGB-N은 COCO 기반 예비학습 설정에서 AP 0.627를 달성했고 RGB-단독은 0.445, 잡음-단독은 0.461이었다
데이터셋 전반에서 RGB-N은 여러 기초 모델 대비 픽셀 수준 F1 및 AUC가 더 높고, 특히 NIST16, Columbia, COVER, CASIA 데이터셋에서 두드러진 향상을 보인다
본 방법은 기초 방법에 비해 JPEG 품질 변화 및 리사이징 공격에 대한 견고함을 보인다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.