QUICK REVIEW

[論文レビュー] Seeing is not always believing: Benchmarking Human and Model Perception of AI-Generated Images

Zeyu Lu, Di Huang|arXiv (Cornell University)|Apr 25, 2023

Misinformation and Its Impacts被引用数 30

ひとこと要約

この論文は、新しい大規模なFake2Mデータセットを用いて人間とAI検出器の性能を比較し、人間は苦戦する（61.3%の精度；38.7%のミス）、一方でデータセットごとにモデルの性能は異なり、いくつかの設定では86–99%に達することもある；全設定で単一のモデルが優位に立つわけではない。

ABSTRACT

Photos serve as a way for humans to record what they experience in their daily lives, and they are often regarded as trustworthy sources of information. However, there is a growing concern that the advancement of artificial intelligence (AI) technology may produce fake photos, which can create confusion and diminish trust in photographs. This study aims to comprehensively evaluate agents for distinguishing state-of-the-art AI-generated visual content. Our study benchmarks both human capability and cutting-edge fake image detection AI algorithms, using a newly collected large-scale fake image dataset Fake2M. In our human perception evaluation, titled HPBench, we discovered that humans struggle significantly to distinguish real photos from AI-generated ones, with a misclassification rate of 38.7%. Along with this, we conduct the model capability of AI-Generated images detection evaluation MPBench and the top-performing model from MPBench achieves a 13% failure rate under the same setting used in the human evaluation. We hope that our study can raise awareness of the potential risks of AI-generated images and facilitate further research to prevent the spread of false information. More information can refer to https://github.com/Inf-imagine/Sentry.

研究の動機と目的

人間がリアルとAI生成画像を識別できる能力を評価する（HPBench）。
AIモデルが多様な生成モデルを横断してAI生成画像を検出できるかを評価する（MPBench）。
大規模データセット（Fake2M）と、堅牢な偽画像検出研究を促すベンチマークを作成する。
人間とモデルの性能に影響を与える要因を分析する。包括的には画像カテゴリ、背景、訓練データの多様性など。

提案手法

Fake2Mを組成する：約2MのAI生成画像と複数のジェネレータからの実画像を含む大規模偽画像データセット。
50人の参加者を対象にHPBenchを実施し、各参加者につき100問のランダム化された質問を評価して実画像かAI生成画像かを判定。
MPBenchの最先端検出器を、11の検証データセットと4つの訓練設定を用いて評価し、ジェネレータとサンプリング手法に対する頑健性を測定。
HPBenchの人間の精度とMPBenchのモデル精度を、同等の評価条件下で比較。
カテゴリ別の人間の性能と、AI生成画像における一般的な知覚欠陥を分析。
クロスデータセットおよびクロスモデルの変動を報告し、単一の最良検出器が存在しないことを強調。

実験結果

リサーチクエスチョン

RQ1人間は最先端のAI生成画像と実写真を信頼をもって区別できるか（HPBenchの結果）？
RQ2AIベースの検出器は多様な生成モデルと訓練データにわたってどのように性能を発揮するか（MPBenchの結果）？
RQ3訓練データの多様性は未知の生成モデルに対する検出器の頑健性を向上させるか？
RQ4AI生成画像の検出可能性にはカテゴリ別の違いがあるか？
RQ5人間がAI生成画像を判断する際に依拠する主な知覚手がかりや欠陥は何か？

主な発見

人間はHPBench全体で平均61.3%の正解率を示した（誤分類率38.7%）。
人間は実在するポートレートを他のAI生成画像タイプより識別しやすい。
トップのAI検出器モデルは、いくつかの設定で約86–87%の正確さに達するが、訓練データセットと検証モデルによって性能は異なる。
全ての訓練/検証の組み合わせで単一の検出器が支配するわけではない；モデル性能はデータセット依存。
多様化された訓練データ（Fake2M）は全体的な検出器の精度と、生成モデルを横断した一般化能力を向上させる。
HPBenchと同じ評価設定下で、最良のモデルは13%の失敗率を示した（ConvNext-S with Dataset Setting D）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。