[論文レビュー] What You See is What You Read? Improving Text-Image Alignment Evaluation
本論文は SeeTRUE という包括的な text-image alignment ベンチマークを導入し、ベースラインを上回り、実データと合成データの両方へ一般化する 2 つの alignment 評価手法(VQ2 と VNLI)を提示します。これにより text-to-image システムの評価と再ランキングが改善されます。
Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.
研究の動機と目的
- テキスト-画像生成タスクと画像-テキスト生成タスクの両方を網羅する包括的なクロスタスク評価フレームワークを促進する。
- 実世界および合成の画像-テキストペアを含む大規模で人間が注釈したベンチマーク SeeTRUE を作成し、意味的整合性を評価可能にする。
- 参照なしまたはエンドツーエンドで動作する 2 つの自動評価手法(VQ2 および VNLI)を提案し、強力なベースラインと比較する。
- 整合スコアを用いてミスアラインメントを局在化し、生成画像候補の再ランキングを改善する能力を示す。
- 将来の研究と再現性を可能にするデータ、モデル、コードといったリソースを提供する。
提案手法
- SeeTRUE を構成するために、実データ/合成データおよび text-to-image / image-to-text タスクにまたがる 31,855 件のラベル付き image-text ペアを人間の判断で整合性評価を付与してキュレーションする。
- ConGen により大規模言語モデルを用いて変種を生成し、NLI および人間の検証で矛盾するキャプションを生成する。
- VQ2:テキストからの質問回答ペアを生成してゼロショット整合性を評価し、QA で検証し、VQA モデルで image-text 整合性をスコアリングする;ペア全体でスコアを統計する。
- VNLI:複数モーダルモデル(PaLI-17B、BLIP2)をエンドツーエンドで微調整し、yes/no のプロンプト形式の image-text ペアに対して二値の整合性を予測する。
- SeeTRUE データセット上で ROC AUC を用いて CLIP、CoCa、BLIP、BLIP2、OFA、TIFA などのベースラインと比較して整合手法を評価する。
- VQ2 は組成的データセット(例:Winoground など)で卓越した性能を発揮し、微調整済み PaLI との組み合わせで強力かつ補完的な信号を提供する。
実験結果
リサーチクエスチョン
- RQ1実世界データと合成データの両方に対して、画像と言語の意味的整合性をどのように頑健に評価できるか?
- RQ2質問生成と視覚質問応答のパイプライン(VQ2)は、テキスト- image 整合性タスクで固定埋め込みベースラインを上回れるか?
- RQ3エンドツーエンドの多模態モデル微調整(VNLI)は、ゼロショット手法より整合判断を改善するか?
- RQ4SeeTRUE のベンチマークはミスアラインメントの源を明らかにし、整合スコアによる生成画像の再ランキングを改善できるか?
- RQ5合成データと対比・矛盾生成は、データセット間の整合評価を助けるか、それとも妨げるか?
主な発見
- VQ2 は SeeTRUE データセット全体で最 state-of-the-art のゼロショット性能を達成し、いくつかのベースラインを上回り、Winoground で最高結果を出した。
- 微調整済み PaLI(合成データを含む)は平均 ROC AUC が高く、いくつかのデータセットで最強の性能を示す;合成データは合成画像タスクに有益だが、すべての自然画像データセットでそうとは限らない。
- エンドツーエンドの VNLI モデル(PaLI、BLIP2 系列)は強力な結果を示し、組み合わせると VQ2 を補完できる。
- VQ2 は特定の質問応答ペアを通じて解釈可能なミスアラインメントの局在化を提供し、CLIP ベースラインより生成画像のランキングを改善する。
- Winoground において、VQ2 はグループスコア 30.50% を達成し、人間レベルの指針に近づき、多くの分解的推論タスクで多くのベースラインを上回る。
- SeeTRUE の矛盾生成(ConGen)アプローチは、人間ラベルとの高い一致度を達成しており(例:COCO で 94%、PickaPic で 77%)、データタイプを跨ぐ堅牢な評価を支える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。