Skip to main content
QUICK REVIEW

[論文レビュー] GenImage: A Million-Scale Benchmark for Detecting AI-Generated Image

Mingjian Zhu, Hanting Chen|arXiv (Cornell University)|Jun 14, 2023
Generative Adversarial Networks and Image Synthesis被引用数 33
ひとこと要約

GenImageはAI-generated image detectionのmillion-scale general-image datasetを導入し、生成器横断と劣化画像分類の2つの評価タスクを追加して、検出器の一般化を生成器間および画像劣化に対して評価します。

ABSTRACT

The extraordinary ability of generative models to generate photographic images has intensified concerns about the spread of disinformation, thereby leading to the demand for detectors capable of distinguishing between AI-generated fake images and real images. However, the lack of large datasets containing images from the most advanced image generators poses an obstacle to the development of such detectors. In this paper, we introduce the GenImage dataset, which has the following advantages: 1) Plenty of Images, including over one million pairs of AI-generated fake images and collected real images. 2) Rich Image Content, encompassing a broad range of image classes. 3) State-of-the-art Generators, synthesizing images with advanced diffusion models and GANs. The aforementioned advantages allow the detectors trained on GenImage to undergo a thorough evaluation and demonstrate strong applicability to diverse images. We conduct a comprehensive analysis of the dataset and propose two tasks for evaluating the detection method in resembling real-world scenarios. The cross-generator image classification task measures the performance of a detector trained on one generator when tested on the others. The degraded image classification task assesses the capability of the detectors in handling degraded images such as low-resolution, blurred, and compressed images. With the GenImage dataset, researchers can effectively expedite the development and evaluation of superior AI-generated image detectors in comparison to prevailing methodologies.

研究の動機と目的

  • ImageNetクラスに合わせたmillion-scaleの汎用AI生成画像データセットを作成する。
  • GANと拡散モデルを含む多様な生成器と幅広い内容を取り入れ、頑健な検出器の訓練を可能にする。
  • 現実世界のシナリオを反映する評価タスクを導入する: 生成器間の一般化と劣化画像に対する頑健性。
  • GenImageベンチマーク上で、バックボーンや既存手法を横断した検出器のベースライン分析を提供する。

提案手法

  • ImageNetのリアル画像と8つの最新生成器(BigGAN、GLIDE、VQDM、Stable Diffusion V1.4、Stable Diffusion V1.5、ADM、Midjourney、Wukong)で生成された合成画像をペアリングして、1000クラスのラベルを使用してバランスの取れた偽画像セット(約135万偽画像、約133万実画像)を作成する。
  • 1000クラスのImageNetラベルを使用して、偽画像セットのバランスを取りながら生成する。
  • バックボーンモデル(ResNet-50、DeiT-S、Swin-T)と既存検出器(CNNSpot、Spec)をベースラインとして用いて検出器を評価する。
  • ふたつのタスクを提案する: (i) 生成器横断画像分類(Cross-Generator Image Classification)で生成器間の一般化を検証する; (ii) 劣化画像分類(Degraded Image Classification)で解像度の変化、JPEG圧縮、ブラーに対する頑健性を検証する。
  • 周波数領域分析と生成器の相関を用いて、アーティファクトと生成器横断の転移を理解する。

実験結果

リサーチクエスチョン

  • RQ1ある生成器で訓練した検出器は、他の生成器によって生成された画像にどれだけ一般化するか?
  • RQ2一般的な画像劣化(低解像度、圧縮、ブラー)下で検出器の性能はどの程度低下するか?
  • RQ3GenImageでどのバックボーンアーキテクチャまたは既存検出器がより強い一般化を提供し、GANと拡散モデルの画像が性能にどう影響するか?
  • RQ4クロスジェネレータ一般化と劣化画像の頑健性を改善するデータセット・内容要因(クラス数、クラスあたりの画像数、内容の多様性)は何か?

主な発見

  • 同一ジェネレータで訓練・評価された検出器は非常に高い正確さを達成する(最大99.9%)、しかし生成器間の一般化は大幅に弱い(8つの生成器での平均66.9%程度)。
  • Swin-Tは、報告された設定で最も良いクロスジェネレータ平均を示し、ResNet-50とDeiT-Sがそれに続く。
  • CNNSpotとSpecはGANに特化したデータセットでは強力だが、GenImageでは拡散モデル生成内容に対しては性能が低く、生成器特異的または汎化可能なバックボーンの必要性を示唆する。
  • データ規模の増加、クラス多様性の拡大、クラスごとの画像数の増大により、クロスジェネレータと劣化画像の精度が大幅に向上し、大規模(約1.6e5–1.62e6枚)設定でより高い性能を達成する。
  • 劣化画像実験では、JPEGとブラーに対するロバスト性は訓練時の前処理のおかげでCNNSpotが強い一方、標準的なバックボーンはJPEG圧縮とリサイズに対して顕著な感度を示す。
  • 生成器相関分析では、似たアーキテクチャ(例:Stable Diffusion系)の訓練がクロスジェネレータ転移を改善する傾向があり、Midjourneyは一般化において依然として難しい。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。