[論文レビュー] Text-to-image Diffusion Models in Generative AI: A Survey
テキストから画像への拡散モデルの包括的な調査であり、基礎、ピクセル空間および潜在空間アプローチの先駆的手法、ガイダンス技術、改善点、評価、そして画像生成を超える応用を網羅する。
This survey reviews the progress of diffusion models in generating images from text, ~ extit{i.e.} text-to-image diffusion models. As a self-contained work, this survey starts with a brief introduction of how diffusion models work for image synthesis, followed by the background for text-conditioned image synthesis. Based on that, we present an organized review of pioneering methods and their improvements on text-to-image generation. We further summarize applications beyond image generation, such as text-guided generation for various modalities like videos, and text-guided image editing. Beyond the progress made so far, we discuss existing challenges and promising future directions.
研究の動機と目的
- 拡散モデルの基本と条件付き画像合成のガイダンスを紹介する。
- テキストから画像への拡散フレームワークの先駆的なものと、それらの潜在空間/ピクセル空間戦略をレビューする。
- より良いテキスト整合性、レイアウト制御、および検索ベースの手法を可能にする改善点を要約する。
- 評価指標、倫理的配慮、および画像生成を超える応用について議論する。
- 拡散ベースのT2Iシステムの課題と有望な将来の方向性を概説する。
提案手法
- 拡散モデルと前方/後方のデノイジング過程を、主要な方程式(例:q(x_t|x_0)およびE_t[λ(t)||ε−ε_θ(x_t,t)||^2])とともに説明する。
- 分類器フリー指導やCLIPベースの指導、あるいはクロスメディアル指導を含むガイダンス手法を説明する。
- ピクセル空間と潜在空間の拡散フレームワークを区別し、代表的なモデル(GLIDE、Imagen、Stable Diffusion、DALL-E 2)を要約する。
- 空間制御、テキストの反転、検索付き拡散、拡散事前分布などの改良点について議論する。
- 評価指標(FID、CLIPスコア、IS、R-precision)と人間ベンチマーク、さらには倫理的リスクの考慮事項を概説する。
実験結果
リサーチクエスチョン
- RQ1拡散モデルを用いたテキスト条件付き画像合成を可能にする核となる機構は何か。
- RQ2ピクセル空間と潜在空間の拡散アプローチは、忠実度とテキストと画像の整合性の点でどのように比較されるか。
- RQ3テキストから画像の品質と制御性を最も効果的に向上させるガイダンスおよび条件付け技術は何か。
- RQ4拡散ベースのT2Iシステムにおける分布外のプロンプトや希少エンティティにどう対処するか。
- RQ5テキスト-to-画像拡散モデルの主な倫理リスクと評価戦略は何か。
主な発見
| モデル | FID |
|---|---|
| CogView | 27.10 |
| LAFITE | 26.94 |
| DALL-E | 17.89 |
| GLIDE | 12.24 |
| Imagen | 7.27 |
| Stable Diffusion | 12.63 |
| VQ-Diffusion | 13.86 |
| DALL-E 2 | 10.39 |
| Upainting | 8.34 |
| ERNIE-ViLG 2.0 | 6.75 |
| eDiff-I | 6.95 |
- MS-COCO上の代表的モデルのFIDスコアは、DALL-E 2が10.39を達成し、Imagenが7.27、GLIDEが12.24である。
- Stable Diffusion(潜在空間)は、強力なテキスト整合性と競争力のある忠実度を達成する(FID 12.63)。
- ERNIE-ViLG 2.0 はFIDで6.75を達成し、調査対象モデルの中で高い性能を示している。
- 検索補強アプローチ(RDM、KNN-diffusion、Re-Imagen)は分布外性能を向上させる。
- Classifier-free guidanceは、いくつかの設定でサンプルの忠実度とテキスト–画像整合性を、CLIPガイド手法より一般的に向上させる。
- クロスメディアルガイダンスと大規模言語モデルは、拡散事前分布と組み合わせることでキャプションの忠実度と場面の複雑さを向上させることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。