QUICK REVIEW

[論文レビュー] Improving Text-to-Image Consistency via Automatic Prompt Optimization

Oscar Mañas, Pietro Astolfi|arXiv (Cornell University)|Mar 26, 2024

Handwritten Text Recognition Techniques被引用数 6

ひとこと要約

OPT2I は、推論時のプロンプト最適化フレームワークで、LLM を用いてユーザープロンプトを反復的に書き換え、テキストから画像へのモデルのプロンプトと画像の整合性スコアを最大化します。T2I モデルのファインチューニングは行いません。MSCOCO および PartiPrompts データセットでの整合性を改善し、画像品質を保ちます。

ABSTRACT

Impressive advances in text-to-image (T2I) generative models have yielded a plethora of high performing models which are able to generate aesthetically appealing, photorealistic images. Despite the progress, these models still struggle to produce images that are consistent with the input prompt, oftentimes failing to capture object quantities, relations and attributes properly. Existing solutions to improve prompt-image consistency suffer from the following challenges: (1) they oftentimes require model fine-tuning, (2) they only focus on nearby prompt samples, and (3) they are affected by unfavorable trade-offs among image quality, representation diversity, and prompt-image consistency. In this paper, we address these challenges and introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a large language model (LLM) to improve prompt-image consistency in T2I models. Our framework starts from a user prompt and iteratively generates revised prompts with the goal of maximizing a consistency score. Our extensive validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost the initial consistency score by up to 24.9% in terms of DSG score while preserving the FID and increasing the recall between generated and real data. Our work paves the way toward building more reliable and robust T2I systems by harnessing the power of LLMs.

研究の動機と目的

物体数、空間関係、属性の正確性に起因して、T2I システムにおけるプロンプトと画像の整合性を改善する必要性を動機づける。
LLM を活用して改訂プロンプトを生成するトレーニング不要の、プロンプトベースの最適化フレームワーク（OPT2I）を提案する。
標準ベンチマーク（MSCOCO および PartiPrompts）上で、多様な T2I モデル、LLM、整合性指標に対して OPT2I を評価する。
OPT2I がプロンプト-画像の整合性を向上させつつ、画像品質とリコールを維持または向上させることを示す。

提案手法

フレームワークは、パラメータを更新せずにプロンプトを最適化するために、T2I モデル、LLM、整合性スコアラーを組み合わせる。
反復プロセスは、ユーザープロンプトから開始し、複数の画像を生成し、プロンプトごとの整合性スコアを計算し、メタプロンプト履歴を持つ LLM を用いて改訂プロンプトを提案する。
2 つの細粒度整合性指標を使用する: decomposed CLIPScore (dCS) および Davidsonian Scene Graph (DSG) スコア。これにより、単一のスカラーより豊かなフィードバックを可能にする。
LLM の履歴とタスクプロンプトがインコンテキスト学習を導き、より良い言い換えを生成し、各反復で最良のプロンプトを文脈に取り込んで更新する。
探索と活用のバランスを取りつつ、反復ごとのプロンプト数とサンプリング温度により、固定予算の反復と各反復あたりのプロンプト数で最適化を進める。

実験結果

リサーチクエスチョン

RQ1LLM 主導の推論時プロンプト最適化は、ファインチューニングなしでさまざまな T2I モデルに対してプロンプト-画像の整合性を改善できるか。
RQ2異なる整合性指標（dCS 対 DSG）が、最適化されたプロンプトの品質と得られる画像の忠実度にどのように影響するか。
RQ3OPT2I は、LLM の選択や T2I モデルのアーキテクチャの変動に対して、画像品質（FID）を維持しつつリコールを促進する点で頑健か。
RQ4最適化されたプロンプトは、以前は無視されていた要素を強調し、ユーザープロンプトとの整合性を高めるためにどのような定性的戦略を用いるか。

主な発見

OPT2I は、paraphrasing ベースラインと比較して、MSCOCO および PartiPrompts データセットで一貫してプロンプト-画像の整合性を改善する。
On MSCOCO および PartiPrompts では、DSG および dCS 指標で評価した場合、ユーザープロンプトと比較して最大で 24.9% の相対的な改善を達成する。
OPT2I は、生成画像と実データ間のリコールを増加させつつ、Fréchet Inception Distance (FID) を維持または改善し、画像品質と多様性が維持または向上していることを示す。
DSG をスコアリング目的として用いると、複雑なプロンプト（PartiPrompts）で dCS より大きな改善が得られ、より詳細でタスク関連の整合性指標の利点を示唆する。
OPT2I は LLM の選択と T2I モデルの選択に頑健で、パラメータ更新なしのプラグアンドプレイ解として多用途な適用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。