Skip to main content
QUICK REVIEW

[논문 리뷰] Synthetic Image Detection with CLIP: Understanding and Assessing Predictive Cues

Marco Willi, Melanie Mathys|arXiv (Cornell University)|2026. 02. 12.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

이 논문은 CLIP 기반 합성 이미지 탐지기를 분석하고, SynthCLIC 페어 데이터셋을 도입하며, CLIP가 실제 vs 합성 분류를 위해 의존하는 고수준 의미 큐를 설명하고, 제너레이터 유형에 따라 일반화가 달라짐을 보여준다.

ABSTRACT

Recent generative models produce near-photorealistic images, challenging the trustworthiness of photographs. Synthetic image detection (SID) has thus become an important area of research. Prior work has highlighted how synthetic images differ from real photographs--unfortunately, SID methods often struggle to generalize to novel generative models and often perform poorly in practical settings. CLIP, a foundational vision-language model which yields semantically rich image-text embeddings, shows strong accuracy and generalization for SID. Yet, the underlying relevant cues embedded in CLIP-features remain unknown. It is unclear, whether CLIP-based detectors simply detect strong visual artifacts or exploit subtle semantic biases, both of which would render them useless in practical settings or on generative models of high quality. We introduce SynthCLIC, a paired dataset of real photographs and high-quality synthetic counterparts from recent diffusion models, designed to reduce semantic bias in SID. Using an interpretable linear head with de-correlated activations and a text-grounded concept-model, we analyze what CLIP-based detectors learn. CLIP-based linear detectors reach 0.96 mAP on a GAN-based benchmark but only 0.92 on our high-quality diffusion dataset SynthCLIC, and generalization across generator families drops to as low as 0.37 mAP. We find that the detectors primarily rely on high-level photographic attributes (e.g., minimalist style, lens flare, or depth layering), rather than overt generator-specific artifacts. CLIP-based detectors perform well overall but generalize unevenly across diverse generative architectures. This highlights the need for continual model updates and broader training exposure, while reinforcing CLIP-based approaches as a strong foundation for more universal, robust SID.

연구 동기 및 목표

  • 고신뢰도 생성 모델로 인해 합성 이미지 탐지(SID)를 신뢰성과 안전 문제로 동기 부여한다.
  • SynthCLIC를 도입하여 의미 편향을 줄이고 확산 모델 전반에서 견고한 평가를 가능하게 한다.
  • 해석 가능한 선형 헤드와 개념 기반 어휘를 사용해 CLIP 기반 탐지기가 무엇을 학습하는지 조사한다.
  • GAN 및 확산모델 생성기 간 CLIP 기반 SID의 일반화를 평가한다.

제안 방법

  • frozen CLIP 비전 인코더(ViT-L/14-336)를 사용하고 [CLS] 토큰을 낮은 차원 공간으로 투사하는 두 개의 학습 가능한 선형 계층을 추가한다.
  • 투사된 활성화에 직교성 제약을 부과하여 상관되지 않는 해석 가능한 특징을 촉진한다.
  • 사진 촬영 중심의 어휘를 사용한 희소 선형 CDMs인 개념 모델링 프레임워크를 적용하여 시각적 큐를 식별한다.
  • 학습된 표현을 CLIP의 텍스트 공간에 바인딩하기 위해 투사 방향을 어휘 임베딩(TextSpan 및 반의어 기반 어휘)과 비교한다.
  • mAP 및 세 가지 데이터셋(CNNSpot, SynthBuster+, SynthCLIC) 간의 Ablation 및 교차 데이터셋/일반화 테스트로 평가한다.
Figure 1: Synthetic images—even those generated by recent, high-quality generative models—differ from real photographs in subtle aspects. The figure shows a real image (left) and four paired synthetic variants from the SynthCLIC dataset. Shown are the most relevant terms (absolute logit contribution
Figure 1: Synthetic images—even those generated by recent, high-quality generative models—differ from real photographs in subtle aspects. The figure shows a real image (left) and four paired synthetic variants from the SynthCLIC dataset. Shown are the most relevant terms (absolute logit contribution

실험 결과

연구 질문

  • RQ1Q1 CLIP 기반 탐지기가 GAN 기반 합성 이미지에서 현대 확산 기반 합성 이미지로의 확장성은 현실적 페어 데이터에서 얼마나 잘 작동하는가?
  • RQ2Q2 SID에 맞춘 직교 선형 헤드 및/또는 인간이 해석 가능한 개념을 통해 CLIP 기반 분류를 설명할 수 있는가?
  • RQ3Q3 CLIP 표현에서 어떤 시각적 및 사진학적 특성이 데이터셋 간 실제 대 합성 구분에 작용하는가?

주요 결과

  • CLIP 기반 탐지기가 CNNSpot(GAN 기반)에서 0.96 mAP를 달성하지만 SynthCLIC(확산 기반)에서 0.92에 머문다.
  • 교차 데이터세트 일반화가 약하며, 데이터셋 간 일반화가 0.37 mAP까지 떨어지는 경우도 있다.
  • 탐지기는 명시적 제너레이터 특정 아티팩트보다는 고수준의 사진적 특성(예: 미니멀리스트 스타일, 렌즈 효과, 깊이 계층화) 등에 의존한다.
  • CLIP 특징에 대한 선형 헤드는 대체로 직교적이며 SID에 기여하는 다수의 서로 다른 요인을 시사한다.
  • SynthCLIC는 초기 페어 데이터셋에 비해 의미 편향을 줄이지만 제너레이터 계열 간 일반화는 여전히 고르지 않다.
  • 학습된 방향을 어휘로 해석하면 깊이 계층화 및 미니멀리즘 같은 지각 큐와 연결되며 합성 이미지에서 관찰된 아티팩트와 일치한다.
  • 데이터세트 간 투사 차원(k를 2에서 16으로 변화시킴)이 mAP에 미치는 영향은 제한적이다(절대값 0.03 이하).
Figure 2: Examples from the SynthBuster+ dataset. Different paired images are shown in each row. Each column depicts a different image source, starting with real photographs from the RAISE-1K dataset [ undefo ] , followed by synthetic images from the Synthbuster dataset [ undefb ] and images added b
Figure 2: Examples from the SynthBuster+ dataset. Different paired images are shown in each row. Each column depicts a different image source, starting with real photographs from the RAISE-1K dataset [ undefo ] , followed by synthetic images from the Synthbuster dataset [ undefb ] and images added b

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.