[논문 리뷰] Rethinking Image Forgery Detection via Soft Contrastive Learning and Unsupervised Clustering
FOCAL은 이미지 위주 감독과 비지도 클러스터링으로 픽셀 수준 대조 학습으로 이미지 위조 탐지를 재구성하여 재학습 없이도 교차 데이터셋 IoU/F1 성능을 크게 향상시키며, 간단한 특징 융합으로 성능을 높일 수 있음을 보여준다.
Image forgery detection aims to detect and locate forged regions in an image. Most existing forgery detection algorithms formulate classification problems to classify pixels into forged or pristine. However, the definition of forged and pristine pixels is only relative within one single image, e.g., a forged region in image A is actually a pristine one in its source image B (splicing forgery). Such a relative definition has been severely overlooked by existing methods, which unnecessarily mix forged (pristine) regions across different images into the same category. To resolve this dilemma, we propose the FOrensic ContrAstive cLustering (FOCAL) method, a novel, simple yet very effective paradigm based on soft contrastive learning and unsupervised clustering for the image forgery detection. Specifically, FOCAL 1) designs a soft contrastive learning (SCL) to supervise the high-level forensic feature extraction in an image-by-image manner, explicitly reflecting the above relative definition; 2) employs an on-the-fly unsupervised clustering algorithm (instead of a trained one) to cluster the learned features into forged/pristine categories, further suppressing the cross-image influence from training data; and 3) allows to further boost the detection performance via simple feature-level concatenation without the need of retraining. Extensive experimental results over six public testing datasets demonstrate that our proposed FOCAL significantly outperforms the state-of-the-art competitors by big margins: +24.8% on Coverage, +18.9% on Columbia, +17.3% on FF++, +15.3% on MISD, +15.0% on CASIA and +10.5% on NIST in terms of IoU (see also Fig. 1). The paradigm of FOCAL could bring fresh insights and serve as a novel benchmark for the image forgery detection task. The code is available at https://github.com/HighwayWu/FOCAL.
연구 동기 및 목표
- 하나의 이미지 내에서 위조 픽셀 대 pristine 픽셀의 상대적 정의를 재고하고 위조 탐지에서 이미지 간 불일치를 다룬다.
- 픽셀 수준의 대조 학습 프레임워크를 이미지 위조 태스크에 맞추어 개발한다.
- 테스트 시점에서 cross-dataset 학습 영향 없이 위조/ pristine으로 매핑하기 위한 즉시 사용 가능한 비지도 클러스터링 단계 도입.
- 재학습 없이도 간단한 특징 수준 융합을 통해 성능 향상을 가능하게 한다.
- 여섯 개의 공개 테스트 데이터셋에서 견고성 및 교차 도메인 일반화를 입증한다.
제안 방법
- 픽셀 수준 대조 학습을 사용하여 이미지별로 위조에 대한Ground-truth 마스크를 양성/음성 레이블로 활용해 고수준의 포렌식 특징을 감독한다.
- 안정적인 최적화를 위한 각 이미지 내 모든 양성 키에 대해 평균을 내는 개선된 InfoNCE 손실(InfoNCE++)를 채택한다.
- 테스트 중 훈련 매개변수 없이 특징을 위조/ pristine으로 매핑하기 위해 즉시 실행되는 클러스터링 알고리즘(HDBSCAN)을 적용한다.
- 필요시 다중 백본(HRNet 및 ViT 등)에서 특징을 융합하여 재학습 없이 탐지 성능을 향상시킨다.
실험 결과
연구 질문
- RQ1위조 픽셀과 pristine 픽셀을 이미지 내의 상대적 정의로 간주하는 것이 배치 수준 감독과 비교해 탐지 성능에 어떤 영향을 미치는가?
- RQ2이미지별 손실과 비지도 클러스터링을 활용한 픽셀 수준 대조 학습이 교차 데이터셀 위조 탐지를 개선할 수 있는가?
- RQ3다중 백본의 특징 수준 융합이 재학습 없이 위조 위치화 성능을 향상시키는가?
주요 결과
- 이미지별 대조 학습 및 즉시 실행 클러스터링을 갖춘 FOCAL은 여섯 개의 테스트 데이터셋에서 IoU와 F1에서 최첨단 방법을 크게 능가한다.
- HRNet과 ViT의 특징 융합(FOCAL Fusion)은 교차 데이터셋 성능 면에서 최상의 결과를 낳으며 IoU 지표에서 경쟁 방법들보다 큰 차이로 우수하다(예: Coverage +18.6%, Columbia +17.5%, FF++ +10.3%).
- 비지도 클러스터링(HDBSCAN)은 이미지별로 다양한 위조 유형을 효과적으로 처리하고 순수 원본 이미지에서 오탐을 줄인다.
- 쿼리당 다중 양성 키를 집계하는 개선된 InfoNCE 손실(InfoNCE++)은 수렴 속도를 높이고 배치 기반 또는 일반 InfoNCE 손실 대비 안정성을 향상시킨다.
- 특징 수준 융합은 재학습 없이도 상당한 이점을 제공하며 백본 선택에 대한 강건성과 단일 추출기로 인한 편향 완화에 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.