[論文レビュー] Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models
この論文は、推論時に検索データベースをスタイル固有の画像コレクションに置換することで、拡散モデルのゼロショットテキストガイド型スタイリゼーションを実現し、再訓練なしで芸術的な画像合成を可能にし、postfix-based promptsを細粒度のスタイル指定で上回ることを示す。LAION- およびWikiArt/ArtBenchベースの設定とオープンソースのコード/モデルウェイトを提供する。
Novel architectures have recently improved generative image synthesis leading to excellent visual quality in various tasks. Of particular note is the field of ``AI-Art'', which has seen unprecedented growth with the emergence of powerful multimodal models such as CLIP. By combining speech and image synthesis models, so-called ``prompt-engineering'' has become established, in which carefully selected and composed sentences are used to achieve a certain visual style in the synthesized image. In this note, we present an alternative approach based on retrieval-augmented diffusion models (RDMs). In RDMs, a set of nearest neighbors is retrieved from an external database during training for each training instance, and the diffusion model is conditioned on these informative samples. During inference (sampling), we replace the retrieval database with a more specialized database that contains, for example, only images of a particular visual style. This provides a novel way to prompt a general trained model after training and thereby specify a particular visual style. As shown by our experiments, this approach is superior to specifying the visual style within the text prompt. We open-source code and model weights at https://github.com/CompVis/latent-diffusion .
研究の動機と目的
- 再訓練の必要性を減らす拡散モデルの制御可能なポストホックスタイライゼーション手法の動機づけ。
- 外部データベースの有益な画像サンプルで生成を条件付けるリトリーバル強化拡散モデル(RDMs)を活用する。
- 推論時に訓練用スタイルデータベースを入れ替えることで細粒度のスタイル制御を実現することを示す。
- CLIPベースのテキスト–画像空間が自然言語主導のスタイル指定を可能にすることを示す。
提案手法
- OpenImages(ImageNetのレプリカ)またはLAION-2B-enを訓練データベースとして学習したリトリーバル強化拡散モデルを使用する。
- 訓練データベースを推論時にスタイル特定データセット(WikiArt)またはArtBenchスタイルのサブセットに置換してスタイライゼーションを実現する。
- CLIP画像埋め込み空間をクエリして、スタイルデータベースから条件付けのためのk近傍(k=19)を取得する。
- 訓練と推論の両方で retrieved CLIP embeddings に対するクロスアテンションで拡散を条件付けする。
- ArtBenchで訓練したスタイル分類器を用いてスタイライゼーション品質を評価し、postfixベースのプロンプトと比較する。
- 再現性のためのオープンソースコードとモデルウェイトを提供する。
実験結果
リサーチクエスチョン
- RQ1リトリーバル強化拡散モデルは、推論時に外部データベースを入れ替えることでゼロショットのスタイライゼーションを達成できるか?
- RQ2CLIPベースのリトリーバルは追加訓練なしで、生成アートの細粒度・スタイル固有の制御を可能にするか?
- RQ3リトリーバルベースのスタイライゼーションは、従来の postfix-styled prompts と比べて精度とスタイル識別性においてどう違うか?
- RQ4WikiArt, ArtBench など異なるスタイルデータセットを使用することは、合成の品質と制御性にどのような影響を与えるか?
主な発見
- 推論時に訓練データベースをスタイル特定データベースと交換することで、ゼロショットのスタイライゼーションが達成可能である。
- リトリーバルベースのスタイライゼーションは、 tested art styles における細粒度のスタイル制御で postfix-based プロンプトを上回る。
- ArtBench で訓練したスタイル分類器は、 retrieved styles との整合性が postfix-based prompts より高く、定量的比較が示されている。
- 2つのモデル設定を検討した:ImageNet風の RDM と、k=19 の近傍を前提とする互換性のある LAION-2B-en ベースの RDM。
- このアプローチは再訓練なしで post-hoc のスタイリングをサポートし、WikiArt、ArtBench などの専門データベースを用いたターゲット化されたスタイライゼーションを実現する。
- コードとモデルウェイトが公開され、アーティストが手法を拡張・評価できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。