Skip to main content
QUICK REVIEW

[論文レビュー] Exploring the Naturalness of AI-Generated Images

Zijian Chen, Wei Sun|arXiv (Cornell University)|Dec 9, 2023
Visual Attention and Saliency Detection被引用数 8
ひとこと要約

新しい AGIN データベースを用いて AI が生成した画像の自然さをベンチマークし、技術的視点と合理性視点を同時にモデル化する JOINT および JOINT++ を導入して人間の評価と最先端の整合性を達成します。

ABSTRACT

The proliferation of Artificial Intelligence-Generated Images (AGIs) has greatly expanded the Image Naturalness Assessment (INA) problem. Different from early definitions that mainly focus on tone-mapped images with limited distortions (e.g., exposure, contrast, and color reproduction), INA on AI-generated images is especially challenging as it has more diverse contents and could be affected by factors from multiple perspectives, including low-level technical distortions and high-level rationality distortions. In this paper, we take the first step to benchmark and assess the visual naturalness of AI-generated images. First, we construct the AI-Generated Image Naturalness (AGIN) database by conducting a large-scale subjective study to collect human opinions on the overall naturalness as well as perceptions from technical and rationality perspectives. AGIN verifies that naturalness is universally and disparately affected by technical and rationality distortions. Second, we propose the Joint Objective Image Naturalness evaluaTor (JOINT), to automatically predict the naturalness of AGIs that aligns human ratings. Specifically, JOINT imitates human reasoning in naturalness evaluation by jointly learning both technical and rationality features. We demonstrate that JOINT significantly outperforms baselines for providing more subjectively consistent results on naturalness assessment.

研究の動機と目的

  • AI生成画像(AGI)の自然さを評価するための専用評価の必要性を動機づける。
  • 複数の生成タスクとモデルにまたがる、人間が注釈した包括的なデータベース AGIN を作成する。
  • 技術的歪みと合理性歪みが自然さの認識にどのように共同で影響するかを調査する。
  • 人間の推論を模倣するため、技術的視点と合理性視点を共同学習する JOINT / JOINT++ を提案する。

提案手法

  • 5つの生成タスクと18のモデルバリアントから 6,049 枚の AI 生成画像を用いて AGIN を構築する。
  • 30 名の参加者から全体的な自然さと技術的・合理性の視点について計907,350 件の人間評価を収集する。
  • 技術と合理性のスコアと全体的な自然さの相関を分析する。 MOS ≈ 0.145 MOS_T + 0.769 MOS_R を観察する。
  • パッチ分割や知覚的アーティファクトをガイドとした処理などの設計を用いて技術的・合理的ブランチを共同学習する JOINT を提案する;全体 MOS 単独監視と視点別 MOS の二つの監視方式を使用する。
  • 視点別 MOS を用いた追加の細粒度監視と主観的重み付け戦略を組み合わせた JOINT++ を導入し、最終的な自然さを算出する。
Figure 1 : Exemplar images with diverged technical quality and rationality. Evaluating image naturalness from different perspectives ( technical/rationality ) may produces biases, motivating us to construct AGIN , the first INA database with opinions from multi-perspectives.
Figure 1 : Exemplar images with diverged technical quality and rationality. Evaluating image naturalness from different perspectives ( technical/rationality ) may produces biases, motivating us to construct AGIN , the first INA database with opinions from multi-perspectives.

実験結果

リサーチクエスチョン

  • RQ1技術的歪みと高レベルの合理性歪みは、それぞれ AGI の自然さの認知にどのように影響するか。
  • RQ2技術的視点と合理性視点を同時に学習する結合モデルは、単一視点モデルより人間の自然さ評価をより良く予測できるか。
  • RQ3AGIN のような AGI 專用の自然さデータベースは、従来の IQA/IAA データセットより客観的評価を改善するか。
  • RQ4自動的な自然さスコアと人間の判断を最もよく整合させるアーキテクチャと訓練目的は何か。

主な発見

MethodTechnical SRCCTechnical PLCCRationality SRCCRationality PLCCNaturalness SRCCNaturalness PLCC
JOINT (Ours)0.81730.82350.75640.77110.79860.8028
JOINT++ (Ours)0.83510.84290.80330.81270.82640.8362
  • AGIN は自然さが技術的歪みと合理性歪みの両方の影響を受けることを示し、合理性の影響が全体的な自然さにおいてしばしば大きい。
  • 二つの視点からの要因は関連しているが効果は異なるため、単一視点モデルを用いると偏りが生じる可能性がある。
  • 全体的な自然さは技術スコアと合理スコアの線形結合でよく近似できる(MOS ≈ 0.145 MOS_T + 0.769 MOS_R)。
  • JOINT および JOINT++ は技術的・合理性・全体的な自然さの予測でベースラインを上回り、JOINT++ は AGIN 上で最良の結果を達成する。
  • AGIN 上では、従来の IQA/IAA ベースラインは劣後する。AGIN で訓練された JOINT++ は、すべての視点と全体的な自然さで最良の SRCC/PLCC を提供する。
Figure 2 : Pie chart of AGIN database content distribution. The blue, green, red, orange, purple, and black partitions indicate that the images are derived from text-to-image, image translation, image inpainting, image colorization, image editing, and real-world, respectively.
Figure 2 : Pie chart of AGIN database content distribution. The blue, green, red, orange, purple, and black partitions indicate that the images are derived from text-to-image, image translation, image inpainting, image colorization, image editing, and real-world, respectively.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。