[論文レビュー] CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP
CLIP-GENは、ラベルなし画像とCLIP事前知識を用いて、ペアのテキスト-画像データなしで一般的なテキストから画像生成器を訓練します。CLIPの画像埋め込みをVQGANトークン列へ変換する Transformer を介してマッピングを学習します。
Training a text-to-image generator in the general domain (e.g., Dall.e, CogView) requires huge amounts of paired text-image data, which is too expensive to collect. In this paper, we propose a self-supervised scheme named as CLIP-GEN for general text-to-image generation with the language-image priors extracted with a pre-trained CLIP model. In our approach, we only require a set of unlabeled images in the general domain to train a text-to-image generator. Specifically, given an image without text labels, we first extract the embedding of the image in the united language-vision embedding space with the image encoder of CLIP. Next, we convert the image into a sequence of discrete tokens in the VQGAN codebook space (the VQGAN model can be trained with the unlabeled image dataset in hand). Finally, we train an autoregressive transformer that maps the image tokens from its unified language-vision representation. Once trained, the transformer can generate coherent image tokens based on the text embedding extracted from the text encoder of CLIP upon an input text. Such a strategy enables us to train a strong and general text-to-image generator with large text-free image dataset such as ImageNet. Qualitative and quantitative evaluations verify that our method significantly outperforms optimization-based text-to-image methods in terms of image quality while not compromising the text-image matching. Our method can even achieve comparable performance as flagship supervised models like CogView.
研究の動機と目的
- ペアのテキスト-画像データなしで一般的なテキストから画像生成器を訓練する動機付け。
- 生成の事前知識としてCLIPの言語-ビジョンの結合埋め込みを活用する。
- 埋め込みを離散的な画像トークンへ写像するための画像トークナイザーと条件付き自己回帰トランスフォーマを開発する。
- 言語なしの訓練が競争力のある画像品質とテキスト-画像の整合性を達成することを示す。
提案手法
- CLIP を用いて共有空間で統一された画像/テキスト埋め込みを取得する。
- VQ-GANベースの画像トークナイザーを訓練して画像を離散トークンに変換する。
- CLIP埋め込みから画像トークンを予測する条件付き自己回帰トランスフォーマーを訓練する(p(s|c))。
- 訓練中、トークン再構成と埋め込み-CLIP整合性損失を最適化して、デコードされた画像をCLIP埋め込みと整合させる。
- 推論は入力テキストをCLIPテキスト埋め込みへ写像し、トランスフォーマーを介して画像トークンを生成し、それらを画像へデコードする。)
実験結果
リサーチクエスチョン
- RQ1高品質で一般ドメインのテキストから画像生成器を、ペアとなるテキスト-画像データなしで訓練できるだろうか?
- RQ2CLIPの言語-ビジョン事前知識を活用することで、ラベルなし画像コレクションから一貫したテキストから画像生成を実現できるか?
- RQ3提案手法は、最適化ベースおよび完全に教師ありのテキストから画像モデルと画像品質・テキスト-画像の関連性の点でどう比較されるか?
- RQ4ラベルなしデータで訓練した場合、離散トークン・トランスフォーマーベースのアプローチは一般ドメイン生成に有効か?
主な発見
| モデル | IS ↑ | FID-0 ↓ | FID-1 ↓ | FID-2 ↓ | CapS |
|---|---|---|---|---|---|
| AttnGAN | 23.3 | 35.2 | 44.0 | 72.0 | 0.02763 |
| DM-GAN | 32.2 | 26.0 | 39.0 | 73.0 | 0.02801 |
| DF-GAN | 18.7 | 26.0 | 33.8 | 55.9 | 0.02802 |
| CogView | 18.2 | 27.1 | 19.4 | 13.9 | 0.17403 |
| DALL-E | 17.9 | 27.5 | 28.0 | 45.5 | - |
| Ours | 21.4 | 20.7 | 18.5 | 17.4 | 0.13751 |
- MS-COCO で、本手法は強力なFIDスコア(FID-0およびFID-1で最多)と、ISおよびCapSをベースラインに対して競合的に達成。
- ImageNet では、優れたFIDスコアを示し、高品質な画像と整合した意味分布を示す。
- 定性的には、詳細な質感を伴う高忠実度画像を生成し、分布外やスタイライズされたプロンプトへも一般化できる。
- 本モデルは、大規模なペアデータで訓練された教師ありトランスフォーマーベースモデルCogViewの性能に近づくことができ、ラベルなしの画像とCLIP事前知識のみを使用する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。