Skip to main content
QUICK REVIEW

[论文解读] Seeing is not always believing: Benchmarking Human and Model Perception of AI-Generated Images

Zeyu Lu, Di Huang|arXiv (Cornell University)|Apr 25, 2023
Misinformation and Its Impacts被引用 30
一句话总结

本文基于一个新的大规模 Fake2M 数据集,对人工与AI检测器在人类检测AI生成图像能力上的表现进行基准测试,结果显示人类较弱(61.3%正确率;38.7%失误),而模型在不同数据集上表现不同,但在某些设置下可达到86–99%;没有单一模型在所有设置中占优。

ABSTRACT

Photos serve as a way for humans to record what they experience in their daily lives, and they are often regarded as trustworthy sources of information. However, there is a growing concern that the advancement of artificial intelligence (AI) technology may produce fake photos, which can create confusion and diminish trust in photographs. This study aims to comprehensively evaluate agents for distinguishing state-of-the-art AI-generated visual content. Our study benchmarks both human capability and cutting-edge fake image detection AI algorithms, using a newly collected large-scale fake image dataset Fake2M. In our human perception evaluation, titled HPBench, we discovered that humans struggle significantly to distinguish real photos from AI-generated ones, with a misclassification rate of 38.7%. Along with this, we conduct the model capability of AI-Generated images detection evaluation MPBench and the top-performing model from MPBench achieves a 13% failure rate under the same setting used in the human evaluation. We hope that our study can raise awareness of the potential risks of AI-generated images and facilitate further research to prevent the spread of false information. More information can refer to https://github.com/Inf-imagine/Sentry.

研究动机与目标

  • 评估人类将真实图片与AI生成图片区分开的能力(HPBench)。
  • 评估AI模型在多样化生成模型(MPBench)下检测AI生成图片的能力。
  • 创建大规模数据集(Fake2M)与基准测试,促进稳健的假图片检测研究。
  • 分析影响人类和模型性能的因素,包括图像类别、背景和训练数据多样性。

提出的方法

  • 整合 Fake2M,一个包含约2M张AI生成图像和来自多个生成器的真实图像的大规模假图像数据集。
  • 进行HPBench,50名参与者评估每名参与者100道随机的问题,以判断是真实还是AI生成的图像。
  • 在MPBench上使用11个验证数据集和四个训练设置来评估多种最先进检测器,以衡量在生成器和采样方法上的鲁棒性。
  • 在匹配的评估条件下,将人类准确率(HPBench)与模型准确率(MPBench)进行比较。
  • 分析特定类别的人类表现以及AI生成图像中的常见感知缺陷。
  • 报告跨数据集和跨模型的变异性,以突出没有单一最佳检测器。

实验结果

研究问题

  • RQ1人类是否能够可靠地区分最先进的AI生成图像和真实照片(HPBench结果)?
  • RQ2基于AI的检测器在多样化的生成模型和训练数据下表现如何(MPBench结果)?
  • RQ3训练数据的多样性是否提升检测器在未见生成模型上的鲁棒性?
  • RQ4AI生成图像在可检测性方面是否存在类别特异性差异?
  • RQ5人类在判断AI生成图像时依赖的主要感知线索或缺陷是什么?

主要发现

  • 在人类的HPBench中,平均准确率为61.3%(误判率38.7%).
  • 人类在区分真实肖像方面优于其他AI生成图像类型。
  • 顶级AI检测模型在某些设置下可达到约86–87%的准确率,但性能随训练数据集和验证模型而异。
  • 没有单一检测器在所有训练/验证组合中占优;模型性能依赖于数据集。
  • 多样化的训练数据(Fake2M)提高了整体检测器准确率以及对不同生成模型的泛化能力。
  • 在与HPBench相同的评估设置下,表现最佳的模型达到13%的失败率(ConvNext-S,数据集设置D)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。