[論文レビュー] Re-Imagen: Retrieval-Augmented Text-to-Image Generator
Re-Imagen は外部のマルチモーダル参照を取得してテキストから画像への拡散を grounding し、珍しいまたは未見のエンティティに対する忠実性を向上させ、標準ベンチマークと新しい EntityDrawBench データセットで高い FID/grounding を達成します。
Research on text-to-image generation has witnessed significant progress in generating diverse and photo-realistic images, driven by diffusion and auto-regressive models trained on large-scale image-text data. Though state-of-the-art models can generate high-quality images of common entities, they often have difficulty generating images of uncommon entities, such as `Chortai (dog)' or `Picarones (food)'. To tackle this issue, we present the Retrieval-Augmented Text-to-Image Generator (Re-Imagen), a generative model that uses retrieved information to produce high-fidelity and faithful images, even for rare or unseen entities. Given a text prompt, Re-Imagen accesses an external multi-modal knowledge base to retrieve relevant (image, text) pairs and uses them as references to generate the image. With this retrieval step, Re-Imagen is augmented with the knowledge of high-level semantics and low-level visual details of the mentioned entities, and thus improves its accuracy in generating the entities' visual appearances. We train Re-Imagen on a constructed dataset containing (image, text, retrieval) triples to teach the model to ground on both text prompt and retrieval. Furthermore, we develop a new sampling strategy to interleave the classifier-free guidance for text and retrieval conditions to balance the text and retrieval alignment. Re-Imagen achieves significant gain on FID score over COCO and WikiImage. To further evaluate the capabilities of the model, we introduce EntityDrawBench, a new benchmark that evaluates image generation for diverse entities, from frequent to rare, across multiple object categories including dogs, foods, landmarks, birds, and characters. Human evaluation on EntityDrawBench shows that Re-Imagen can significantly improve the fidelity of generated images, especially on less frequent entities.
研究の動機と目的
- 珍しいまたは未見のエンティティに対しても忠実なテキストから画像生成を堅牢に行う動機付け。
- 外部のマルチモーダル知識を活用して視覚的外観を記憶するのではなく、 grounding を行う。
- テキストと取得ガイダンスを統合する訓練手法とサンプリング戦略を開発する。
- 標準ベンチマークと長尾エンティティのプロンプトに対して grounding とリアリズムを評価する。
提案手法
- 3 段階生成を行うカスケード拡散アーキテクチャ(64×、256×、1024×)を用いて高解像度画像を生成する。
- 入力プロンプトをクエリとして 外部のマルチモーダル知識ベースから上位 k 対の 画像-テキストペアを取得する(BM25 または CLIP ベースの類似性)。
- 取得した <画像, テキスト> 参照をエンコードし、デノイジング U-Net へのクロスアテンション機構で統合する。
- サンプリング時にテキストガイダンスと取得ガイダンスを interleaved に調整することで、二つの epsilon-prediction と混合比の組み合わせを用いたバランスを取る。
- ImageText データから派生した KNN-ImageText データセット上で、top-k の近傍を取得として訓練を行い、条件をランダムにドロップして周辺化されたデノイジング を学習する。
- COCO/WikiImages でのゼロショット FID および新しい EntityDrawBench の人間による忠実性とフォトリアリズムの評価で評価する。
実験結果
リサーチクエスチョン
- RQ1取得を用いた条件付けがテキストから画像生成において珍しい・未見のエンティティへの忠実性を向上させるか。
- RQ2外部のマルチモーダル知識 grounding が標準的な画像品質指標(例: FID)やエンティティの忠実性にどのように影響するか。
- RQ3取得品質,取得数,ガイダンスのバランスが一般的なエンティティと珍しいエンティティの結果に与える影響は何か。
- RQ4インタリーブガイダンスは従来の単一条件ガイダンスよりもテキスト整合性とエンティティ grounding のトレードオフを改善するか。
主な発見
- 取得を用いた生成は Imagen などの強力なベースラインよりも COCO および WikiImages で有意な FID 改善をもたらす。
- 取得参照への grounding はテキストプロンプトと参照エンティティの忠実性を高め、特に頻度が低いエンティティに対して有効である。
- EntityDrawBench における人間評価は、犬・食品・ランドマーク・鳥・キャラクターなど多様なエンティティタイプで Re-Imagen が競合モデルより高い忠実性を示す。
- 取得近傍の数(K)を増やすと珍しいエンティティでの性能向上が顕著で、尾部プロンプトに対する取得 grounding が特に有用であることを示す。
- インタリーブガイダンスはテキスト整合性とエンティティ忠実性の間で制御可能なトレードオフを提供し、η ≈ 0.5 の等重視付けが推奨される甘いスポット。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。