Skip to main content
QUICK REVIEW

[論文レビュー] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment

Dhruba Ghosh, Hanna Hajishirzi|arXiv (Cornell University)|Oct 17, 2023
Multimodal Machine Learning Applications被引用数 10
ひとこと要約

GenEvalは、オブジェクト検出とカラー分類を用いて細粒度のテキストから画像生成を検証する、オブジェクト指向の自動化フレームワークを導入します。組み合わせ的タスクにおいて人間の判断と強く一致します。

ABSTRACT

Recent breakthroughs in diffusion models, multimodal pretraining, and efficient finetuning have led to an explosion of text-to-image generative models. Given human evaluation is expensive and difficult to scale, automated methods are critical for evaluating the increasingly large number of new models. However, most current automated evaluation metrics like FID or CLIPScore only offer a holistic measure of image quality or image-text alignment, and are unsuited for fine-grained or instance-level analysis. In this paper, we introduce GenEval, an object-focused framework to evaluate compositional image properties such as object co-occurrence, position, count, and color. We show that current object detection models can be leveraged to evaluate text-to-image models on a variety of generation tasks with strong human agreement, and that other discriminative vision models can be linked to this pipeline to further verify properties like object color. We then evaluate several open-source text-to-image models and analyze their relative generative capabilities on our benchmark. We find that recent models demonstrate significant improvement on these tasks, though they are still lacking in complex capabilities such as spatial relations and attribute binding. Finally, we demonstrate how GenEval might be used to help discover existing failure modes, in order to inform development of the next generation of text-to-image models. Our code to run the GenEval framework is publicly available at https://github.com/djghosh13/geneval.

研究の動機と目的

  • FIDやCLIPScoreのような holistic メトリクスを超えた、細粒度でスケーラブルなテキスト-to-画像モデルの評価の必要性を動機づける。
  • 生成画像内の prompt-objects とそのプロパティを検証する自動的なオブジェクト指向フレームワーク GenEval を提案する。
  • 人間の判断との整合性を示し、組成的タスクにわたる現代のオープンソース T2I モデルを分析する。
  • GenEval が将来のモデル開発を導く失敗モードを明らかにする方法を示す。

提案手法

  • プロンプトをオブジェクトタイプ・数・色・相対位置に分解する。
  • 最先端の MMDetection ベースのオブジェクト検出器(MS COCO 上の Mask2Former)を用いてオブジェクトの有無を検証し、境界ボックス/セグメンテーションを導出する。
  • 検出器の出力からカウントと相対位置を抽出して、カウントと空間関係を評価する。
  • 切り出したオブジェクト領域上で、ゼロショットCLIPベースのカラー分類器を用いてオブジェクトの色を分類する。
  • 各画像ごとに、すべてのプロンプト要素が満たされているかを示す二値の正解スコアを計算し、失敗の説明を提供する。
  • GenEval の結果を人間の注釈と CLIPScore と比較して、人間の判断との整合性を評価する。
Figure 1: Visualization of GenEval . Modern object detection models can be used to automatically verify text-to-image generations. The detected bounding boxes and segmentation masks can be used to verify object presence, count, and position, and then passed to downstream discriminative vision models
Figure 1: Visualization of GenEval . Modern object detection models can be used to automatically verify text-to-image generations. The detected bounding boxes and segmentation masks can be used to verify object presence, count, and position, and then passed to downstream discriminative vision models

実験結果

リサーチクエスチョン

  • RQ1自動化されたオブジェクト中心の検証は、複雑な組成プロンプトに対して holistic 指標より人間の判断への合意を高められるか。
  • RQ2現代の T2I モデルは、カウント・位置付け・属性結合タスクをどの程度改善しており、どこで依然として苦戦しているか。
  • RQ3オブジェクト検出器とカラー分類子のコンポーネントは、さまざまな T2I モデルを跨いで信頼できる、解釈可能な評価にどのように寄与しているか。
  • RQ4GenEval が現行のオープンソースモデルに示す具体的な失敗パターンは、将来の改良を導くのにどのように役立つか。

主な発見

モデル単一オブジェクト二つのオブジェクトカウントカラー位置結合総合CLIPScore人間
CLIP retrieval0.890.220.370.620.030.000.3527.80.42
minDALL-E0.730.110.120.370.020.010.2327.3
SDv1.50.970.380.350.760.040.060.4333.5
SDv2.10.980.510.440.850.070.170.5036.20.57
SD-XL0.980.740.390.850.150.230.5536.7
IF-XL0.970.740.660.810.130.350.6136.50.72
  • GenEval は、人間の注釈者との全体合意率83%を達成し、88% の注釈間合意に近く、複雑なタスクでしきい値を超えた CLIPScore より高い。
  • タスクの中で、カウント、位置、属性結合が人間合意との差が最も大きく、T2Iモデルの残る課題を浮き彫りにしている。
  • IF-XL と SD-XL は以前のモデルより顕著な改善を提供し、IF-XL は総合 GenEval スコア 0.61 を、SD-XL は 0.55 を達成。
  • 位置と属性結合はモデル全体で依然難しく、これらのタスクで最高の結果は約7-15%程度。
  • GenEval の二値の画像ごとの検証と説明可能な失敗の記述は、デバッグとモデル挙動の理解を支援する。
  • このフレームワークは、色の入れ替え、位置の左-右バイアスなど、特定の失敗パターンを明らかにし、生成モデルのターゲットを絞った改善につながる。
Figure 2: Comparison between GenEval and CLIPScore. CLIPScore returns a scalar value indicating image-text alignment, whereas GenEval breaks the prompt down into correct and incorrect elements before producing a final binary score. Compared to CLIPScore, GenEval obtains higher agreement with human j
Figure 2: Comparison between GenEval and CLIPScore. CLIPScore returns a scalar value indicating image-text alignment, whereas GenEval breaks the prompt down into correct and incorrect elements before producing a final binary score. Compared to CLIPScore, GenEval obtains higher agreement with human j

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。