Skip to main content
QUICK REVIEW

[論文レビュー] ELIQ: A Label-Free Framework for Quality Assessment of Evolving AI-Generated Images

Xinyue Li, Zhiming Xu|arXiv (Cornell University)|Feb 3, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

ELIQは、MOSラベルなしで、進化するAI生成画像の品質を二次元で評価するためのフレームワークを提案します。自動生成のポジティブ・ネガティブペアを用いて、品質を意識した多モーダル批評家を訓練し、AI生成コンテンツからユーザー生成コンテンツへの移行性をMOSラベルなしで拡張します。

ABSTRACT

Generative text-to-image models are advancing at an unprecedented pace, continuously shifting the perceptual quality ceiling and rendering previously collected labels unreliable for newer generations. To address this, we present ELIQ, a Label-free Framework for Quality Assessment of Evolving AI-generated Images. Specifically, ELIQ focuses on visual quality and prompt-image alignment, automatically constructs positive and aspect-specific negative pairs to cover both conventional distortions and AIGC-specific distortion modes, enabling transferable supervision without human annotations. Building on these pairs, ELIQ adapts a pre-trained multimodal model into a quality-aware critic via instruction tuning and predicts two-dimensional quality using lightweight gated fusion and a Quality Query Transformer. Experiments across multiple benchmarks demonstrate that ELIQ consistently outperforms existing label-free methods, generalizes from AI-generated content (AIGC) to user-generated content (UGC) scenarios without modification, and paves the way for scalable and label-free quality assessment under continuously evolving generative models. The code will be released upon publication.

研究の動機と目的

  • 急速に進化するAI生成コンテンツ(AIGC)下での MOS ベース品質評価の不安定性に対処する。
  • 視覚的忠実度とプロンプト–画像整合性を含む二次元のラベルフリー品質評価フレームワークを開発する。
  • 高品質なポジティブと領域特異的ネガティブを自動的に構築し、人間評価なしで移管可能な監視を提供する。
  • 事前学習済みの多模態モデルを品質意識批評家へとファインチューニングし、単一画像推論の軽量スコアリングモジュールを導入する。
  • AIGCとUGCベンチマークでの頑健性と移行性を示す。

提案手法

  • 7カテゴリのプロンプト分類と3つの劣化ファミリー(技術的、審美、整合)を用いてラベルフリー監視を構築し、ポジティブとネガティブを生成する。
  • MOSなしで技術品質、審美品質、整合性を評価する品質意識型指示調整を事前学習済み大規模多模態言語モデルに対して実施する。
  • 技術・審美・整合性の領域特異的連続埋め込みを抽出し、ゲート付き視覚-整合表現で融合する。
  • Quality Query Transformer(QQT)を用いて、融合されたコンテンツトークンと2つの学習可能なクエリトークンから視覚品質と整合品質の2つのスコアを予測する。
  • 削除/否定から導かれるペア比較を用いたマージン付きランキング損失で訓練する:視覚ランキングは2つのネガティブ(tec, aes)、整合ランキングはミスマッチプロンプト(pali)で。
  • 推論は単一画像:凍結埋め込みを抽出し、ゲート結合を行い、視覚と整合表現を結合して2つのスコアを予測する。
Figure 1 : The rapid evolution of generative models shifts MOS distributions, making annotations increasingly inconsistent. ELIQ replaces absolute MOS labels with automatically constructed supervision, enabling scalable quality assessment for evolving AIGC.
Figure 1 : The rapid evolution of generative models shifts MOS distributions, making annotations increasingly inconsistent. ELIQ replaces absolute MOS labels with automatically constructed supervision, enabling scalable quality assessment for evolving AIGC.

実験結果

リサーチクエスチョン

  • RQ1ラベルフリーの比較ベース監視スキームは、AIGCモデルが時間とともにドリフトしてもMOS再注釈なしで高品質評価を維持できるか。
  • RQ2視覚品質とプロンプト–画像整合性という2次元は、進化するモデルとユーザー生成コンテンツ全体のAIGC品質を適切に捉えられるか。
  • RQ3事前学習済みの多模態モデルを指示調整で効果的に適応させ、AIGCの品質意識批評家として機能させることができるか。
  • RQ4従来(技術的/審美的)およびAI特有の劣化は補完的に寄与し、頑健で移行可能な監視に寄与するか。
  • RQ5AIGCとUGCベンチマークで supervise や他のラベルフリーIQA手法と競合可能で、AIGCからUGCへの移行性があるか。締切は不明。

主な発見

  • ELIQはラベルフリー手法の中でAIGCベンチマークにおける最先端の性能を達成し、監督付きベースラインと競合可能である。
  • ラベルフリー設定では、視覚品質のSRCCはAGIQA-3Kで0.801、AIGCIQA2023で0.767、AIGIQA-20Kで0.786を達成し、AGIQA-3Kの整合でのSRCCは0.717、AIGCIQA2023の整合でのSRCCは0.712と堅牢に高い整合性を維持する。
  • UGCベンチマークでは、MOS監視なし(または限られたMOS再利用)で、ELIQはKonIQ-10kでSRCC0.912、SPAQで0.915を達成し、いくつかのラベルフリーベースラインよりも上回る。
  • ELIQの弱教師あり変種は相関をさらに改善し、監督付き性能に近づく。最良の視覚SRCCはAGIQA-3Kで最大0.876、AIGIQA-20Kで0.856に達する。
  • ELIQはAIGCからUGCへ構造的変更なしで一般化し、知覚ドリフト下のスケーラブルな品質評価を実証する。
  • アブレーション研究は、従来のネガティブとAI特有のネガティブを組み合わせると最良の性能を示し、複数の側面(Tec, Aes, Ali)を用いることがバランスの取れた品質予測に不可欠であることを示す。
Figure 2 : Overview of label-free positive and aspect-specific negative sample construction. High-quality images are generated from curated prompts using multiple T2I models, while negative samples are created by simulating technical, aesthetic, and alignment degradations, including both conventiona
Figure 2 : Overview of label-free positive and aspect-specific negative sample construction. High-quality images are generated from curated prompts using multiple T2I models, while negative samples are created by simulating technical, aesthetic, and alignment degradations, including both conventiona

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。