Skip to main content
QUICK REVIEW

[논문 리뷰] Your AI-Generated Image Detector Can Secretly Achieve SOTA Accuracy, If Calibrated

Muli Yang, Gabriel James Goenawan|arXiv (Cornell University)|2026. 02. 02.
Adversarial Robustness in Machine Learning인용 수 0
한 줄 요약

이 논문은 테스트 시 분포 변화 하에서 탐지기가 편향되는 것을 보이고 재학습 없이Bayes 최적 의사결정 경계를 회복하기 위한 라이트한 사후 로그잇 보정(레이블 유무 여부에 관계없이)을 제안한다.

ABSTRACT

Despite being trained on balanced datasets, existing AI-generated image detectors often exhibit systematic bias at test time, frequently misclassifying fake images as real. We hypothesize that this behavior stems from distributional shift in fake samples and implicit priors learned during training. Specifically, models tend to overfit to superficial artifacts that do not generalize well across different generation methods, leading to a misaligned decision threshold when faced with test-time distribution shift. To address this, we propose a theoretically grounded post-hoc calibration framework based on Bayesian decision theory. In particular, we introduce a learnable scalar correction to the model's logits, optimized on a small validation set from the target distribution while keeping the backbone frozen. This parametric adjustment compensates for distributional shift in model output, realigning the decision boundary even without requiring ground-truth labels. Experiments on challenging benchmarks show that our approach significantly improves robustness without retraining, offering a lightweight and principled solution for reliable and adaptive AI-generated image detection in the open world. Code is available at https://github.com/muliyangm/AIGI-Det-Calib.

연구 동기 및 목표

  • 분포 변화 하에서 AI-generated 이미지 탐지기에 대한 체계적인 테스트 시 편향을 식별한다.
  • 편향된 로짓 출력 값을 수정하기 위한 이론적으로 기반이 있는 사후 보정 프레임워크를 제공한다.
  • 최소한의 데이터와 계산 오버헤드로 보이지 않는 생성 모델 전반에 걸쳐 강건한 탐지를 가능하게 한다.
  • 시프트 하에서 간단한 스칼라 로짓 보정이 Bayes-최적 성능에 근접할 수 있음을 보여준다.

제안 방법

  • 학습 및 테스트 분포 하에서 클래스-조건 입력 시프트와 레이블 사전 시프트를 갖는 탐지 문제를 모델링한다.
  • 기본 제로 임계값이 시프트 하에서 Bayes-최적이 아님임을 도출하고, 전역적인 스칼라 로짓 보정이 의사결정 경계를 재정렬할 수 있음을 보인다.
  • 두 가지 보정 전략을 제안한다: 소량의 라벨링된 대상 데이터를 사용한 KDE 기반의 감독 로짓 보정; 그리고 로짓 분포의 대칭성(이중모드 가정)에 기초한 비감독 보정.
  • 백본을 재학습하지 않고 스칼라 α를 추정하는 실용적 절차(또는 보정된 f(x) = f(x) - alpha)를 제공한다.
Figure 1: Logit distributions of a popular AI-generated image detector, CNNSpot ( wang2020cnn ) , pretrained on ProGAN-generated fake images and evaluated on previously unseen fake images from StyleGAN2, WhichFaceIsReal (WFIR), and Midjourney, reveal a tendency to misclassify these unfamiliar fake s
Figure 1: Logit distributions of a popular AI-generated image detector, CNNSpot ( wang2020cnn ) , pretrained on ProGAN-generated fake images and evaluated on previously unseen fake images from StyleGAN2, WhichFaceIsReal (WFIR), and Midjourney, reveal a tendency to misclassify these unfamiliar fake s

실험 결과

연구 질문

  • RQ1테스트 시간 분포 시프트가 AI-생성 이미지 탐지기에 체계적 편향을 야기하여 위조 이미지가 실제 이미지로 잘못 분류될 수 있는가?
  • RQ2가볍고 사후의 스칼라 보정이 재학습 없이 시프트 하에서 Bayes-최적 의사결정을 회복할 수 있는가?
  • RQ3다양한 생성기와 벤치마크에서 감독 보정과 비감독 보정 방법의 효과는 어떠한가?

주요 결과

  • 보정은 backbone 재학습 없이도 unseen 생성기에 대해 탐지 정확도를 크게 향상시킨다.
  • 일관된 로짓 시프트는 현실적인 테스트 시나리오 하에서 레이블 우선순위와 입력 시프트를 모두 보정할 수 있다.
  • 소수의 라벨링된 대상 샘플을 사용한 KDE 기반의 감독 보정은 기준선 대비 상당한 이득을 제공한다.
  • 비감독, unlabeled 대상 로짓에 대한 대칭성 기반 보정은 로짓이 이중모드 구조를 보일 때 강건한 임계값을 회복할 수 있다.
  • 제안된 보정은 여러 탐지기와 생성기에 대해 AIGCDetectBenchmark와 GenImage의 강건성을 향상시킨다.
Figure 2: Conceptual illustration of our proposed (a) supervised and (b) unsupervised calibration methods, both designed to identify an optimal scalar $\alpha$ that achieves an ideal separation between real and fake distributions, with or without access to ground-truth labels.
Figure 2: Conceptual illustration of our proposed (a) supervised and (b) unsupervised calibration methods, both designed to identify an optimal scalar $\alpha$ that achieves an ideal separation between real and fake distributions, with or without access to ground-truth labels.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.