QUICK REVIEW

[論文レビュー] T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation

Kaiyi Huang, Duan, Chengqi|arXiv (Cornell University)|Jul 12, 2023

Multimodal Machine Learning Applications被引用数 23

ひとこと要約

T2I-CompBench++を、open-worldの構成的テキスト対画像生成の6,000プロンプトベンチマークとして包括的に紹介するとともに、新しい評価指標と拡散モデルの構成性を高めるGORS微調整アプローチを提案します。

ABSTRACT

Despite the impressive advances in text-to-image models, they often struggle to effectively compose complex scenes with multiple objects, displaying various attributes and relationships. To address this challenge, we present T2I-CompBench++, an enhanced benchmark for compositional text-to-image generation. T2I-CompBench++ comprises 8,000 compositional text prompts categorized into four primary groups: attribute binding, object relationships, generative numeracy, and complex compositions. These are further divided into eight sub-categories, including newly introduced ones like 3D-spatial relationships and numeracy. In addition to the benchmark, we propose enhanced evaluation metrics designed to assess these diverse compositional challenges. These include a detection-based metric tailored for evaluating 3D-spatial relationships and numeracy, and an analysis leveraging Multimodal Large Language Models (MLLMs), i.e. GPT-4V, ShareGPT4v as evaluation metrics. Our experiments benchmark 11 text-to-image models, including state-of-the-art models, such as FLUX.1, SD3, DALLE-3, Pixart-$α$, and SD-XL on T2I-CompBench++. We also conduct comprehensive evaluations to validate the effectiveness of our metrics and explore the potential and limitations of MLLMs.

研究の動機と目的

open-worldの構成的テキスト対画像生成のための包括的なベンチマークを定義し、属性結合、物体間の関係、複雑な構成をカバーする。
属性結合に特化した評価指標を提案し、人間の判断と相関を評価する。
ベンチマーク上で既存のT2Iモデルを評価し、構成性の長所と限界を特定する。
事前学習済み拡散モデルの構成生成を高める報酬主導の微調整手法であるGORSを導入する。

提案手法

属性結合、物体間の関係、複雑な構成の3カテゴリーと、カラー、形状、質感、空間、非空間、複雑の6サブカテゴリーを網羅する6,000プロンプトを構築する。
属性結合には分離したBLIP-VQA、空間関係にはUniDetベースのメトリクス、複雑なプロンプトには3-in-1メトリクスを提案する。LLMベースの探査としてMiniGPT-4 CoTを検討する。
GORS（Generative mOdel finetuning with Reward-driven Sample selection）を導入して、プロンプトと生成画像の整列度合いに基づく報酬重み付き損失を用い、Stable Diffusion v2を微調整する。
CLIPテキストエンコーダとU-Netの両方を再強化型セットアップでLoRAを用いて微調整し、訓練用サンプルの高整列度を選択する。
新しいベンチマークと指標で6つのT2Iモデル（Stable Diffusion v1/v2、Composable Diffusion、Structured Diffusion、Attend-and-Exciteを含む）をベンチマークする。

実験結果

リサーチクエスチョン

RQ1既存のopen-world構成的T2Iモデルは、属性結合、物体間の関係、複雑な構成の各領域でどの程度性能を発揮するか。
RQ2新しい構成特化型評価指標は、従来のCLIP/BLIPベースのスコアよりも人間の判断とより一致するか。
RQ3報酬主導の微調整（GORS）は、 extensive retraining なしで構成生成を改善できるか。
RQ4マルチモーダルLLMは、構成的T2I出力の統一的な評価信号を提供できるか。
RQ5open-world構成T2Iの現行ベンチマークと指標の限界と失敗事例は何か。

主な発見

GORSはすべてのカテゴリーで構成性能を一貫して向上させ、自動評価と人間評価の双方でベースラインを上回る。
分離型BLIP-VQAとUniDetベースの指標は、属性結合と空間関係においてCLIPベースの指標より人間判断との相関が高い。
3-in-1指標は、CLIPScore、BLIP-VQA、UniDetのスコアを平均化することで複雑なプロンプトのバランスの取れた評価を提供する。
Stable Diffusion v2は、複構成プロンプトで一般にv1-4より優れている一方で、いくつかの事前手法（例：Composable Diffusion）はv2ベースラインで限定的な利得を示す。
Chain-of-Thoughtを伴うMiniGPT-4は統一的な評価信号としての可能性を示すが、現行の人間判断との相関は提案指標と比較して限定的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。