QUICK REVIEW

[논문 리뷰] Seeing is not always believing: Benchmarking Human and Model Perception of AI-Generated Images

Zeyu Lu, Di Huang|arXiv (Cornell University)|2023. 04. 25.

Misinformation and Its Impacts인용 수 30

한 줄 요약

논문은 Fake2M라는 새로운 대규모 데이터셋을 사용하여 인간과 AI 탐지자 성능을 벤치마크하고, 인간은 어려움을 겪는 반면(정확도 61.3%; 오인 38.7%), 모델은 데이터셋에 따라 차이가 있으며 일부 설정에서 86–99%에 도달할 수 있음; 모든 설정에서 단일 모델이 우위를 차지하지 않음.

ABSTRACT

Photos serve as a way for humans to record what they experience in their daily lives, and they are often regarded as trustworthy sources of information. However, there is a growing concern that the advancement of artificial intelligence (AI) technology may produce fake photos, which can create confusion and diminish trust in photographs. This study aims to comprehensively evaluate agents for distinguishing state-of-the-art AI-generated visual content. Our study benchmarks both human capability and cutting-edge fake image detection AI algorithms, using a newly collected large-scale fake image dataset Fake2M. In our human perception evaluation, titled HPBench, we discovered that humans struggle significantly to distinguish real photos from AI-generated ones, with a misclassification rate of 38.7%. Along with this, we conduct the model capability of AI-Generated images detection evaluation MPBench and the top-performing model from MPBench achieves a 13% failure rate under the same setting used in the human evaluation. We hope that our study can raise awareness of the potential risks of AI-generated images and facilitate further research to prevent the spread of false information. More information can refer to https://github.com/Inf-imagine/Sentry.

연구 동기 및 목표

실제 이미지와 AI생성 이미지를 인간이 얼마나 잘 구분할 수 있는지 평가합니다 (HPBench).
다양한 생성 모델에서 AI 모델이 AI생성 이미지를 얼마나 잘 탐지하는지 평가합니다 (MPBench).
대규모 데이터셋(Fake2M)과 로 robust한 가짜 이미지 탐지 연구를 촉진하기 위한 벤치마크를 생성합니다.
인간 및 모델 성능에 영향을 주는 요인 분석, 이미지 카테고리, 배경, 학습 데이터 다양성 포함.

제안 방법

약 2M AI생성 이미지와 여러 제너레이터에서의 실제 이미지를 포함하는 대규모 fake 이미지 데이터셋 Fake2M을 구성합니다.
50명의 참가자가 100개의 무작위 질문을 평가하여 REAL vs AI생성 이미지를 판단하는 HPBench를 수행합니다.
11개의 검증 데이터셋과 네 가지 학습 설정을 사용하여 MPBench에서 여러 최신 탐지기를 평가하고 생성기와 샘플링 방법에 따른 강건성을 측정합니다.
HPBench의 인간 정확도와 MPBench의 모델 정확도를 조건에 맞춰 비교합니다.
이미지 카테고리별 인간 성능 및 AI생성 이미지의 일반적인 지각 결함을 분석합니다.
다른 데이터셋 및 모델 간 변동성을 보고하여 단일 최강 탐지기가 존재하지 않음을 강조합니다.

실험 결과

연구 질문

RQ1사람들이 최첨단 AI생성 이미지를 실제 사진과 신뢰성 있게 구분할 수 있는가 (HPBench 결과)?
RQ2다양한 생성 모델과 학습 데이터에서 AI 기반 탐지기가 어떻게 성능을 발휘하는가 (MPBench 결과)?
RQ3학습 데이터 다양성이 보지 못한 생성 모델에 대해 탐지기 강건성을 향상시키는가?
RQ4AI생성 이미지에 대해 카테고리별로 탐지 용이성에 차이가 있는가?
RQ5AI생성 이미지를 판단할 때 인간이 의지하는 주요 지각 단서나 결함은 무엇인가?

주요 결과

HPBench에서 인간은 평균 정확도 61.3%를 달성했고 오분류율은 38.7%이다.
인간은 실제 인물 사진을 다른 AI생성 이미지 유형보다 더 잘 구분한다.
최고급 AI 탐지기 모델은 일부 설정에서 약 86–87%의 정확도에 도달하지만 성능은 학습 데이터세트 및 검증 모델에 따라 달라진다.
모든 학습/검증 조합에서 단일 탐지기가 지배하지 않으며 모델 성능은 데이터세트 의존적이다.
다양화된 학습 데이터(Fake2M)는 전반적인 탐지 정확도와 생성 모델 간 일반화를 향상시킨다.
동일한 HPBench 평가 조건에서 최상의 모델은 13%의 실패율(데이터셋 설정 D의 ConvNext-S)으로 도달했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.