[論文レビュー] CogView: Mastering Text-to-Image Generation via Transformers
CogView は VQ-VAE 画像トークナイザーを用いた 4B パラメータの Transformer を訓練し、高品質なテキストから画像生成を実行し、強力な FID スコアを達成し、下流のファインチューニングタスクを可能にする。
Text-to-Image generation in the general domain has long been an open problem, which requires both a powerful generative model and cross-modal understanding. We propose CogView, a 4-billion-parameter Transformer with VQ-VAE tokenizer to advance this problem. We also demonstrate the finetuning strategies for various downstream tasks, e.g. style learning, super-resolution, text-image ranking and fashion design, and methods to stabilize pretraining, e.g. eliminating NaN losses. CogView achieves the state-of-the-art FID on the blurred MS COCO dataset, outperforming previous GAN-based models and a recent similar work DALL-E.
研究の動機と目的
- 一般的なドメインでテキストから画像を生成できるスケーラブルなクロスモーダルモデルの構築を Aim とする。
- 離散的な画像トークナイザー(VQ-VAE)と大規模なトランスフォーマーを開発し、テキストと画像トークンを共同でモデル化する。
- 非常に大きなトランスフォーマーの訓練を安定化させる技術(Precision Bottleneck Relaxation および Sandwich LayerNorm)を提案する。
- スタイル学習、超解像、キャプション付け、自己リランキングなどの下流タスクのファインチューニング戦略を実証する。
提案手法
- 画像トークナイザー(VQ-VAE)が画像を離散トークンに圧縮し、GPT様のトランスフォーマーが結合されたトークン列をモデル化するという二段階フレームワークを採用する。
- 48 層、隠れさい 2560、40 のアテンションヘッドを備え、最大 1088 トークンのシーケンスを処理する 4B パラメータのトランスフォーマーを使用する。
- 左から右へのトークン予測によって、テキストと画像トークンの両方を 3000 万組の中国語テキスト–画像ペアで訓練する。
- NaN/オーバーフローを防ぎ、値スケールを管理するために Precision Bottleneck Relaxation(PB-relax)と Sandwich LayerNorm(Sandwich-LN)で訓練を安定化させる。
- トレーニングを速め、より大きなモデルを可能にするために三域スパースアテンションを採用する。
- CogView を下流タスク(超解像、画像キャプション付け/自己リランキング(CapLoss 経由)、スタイル学習)にファインチューニングする。
実験結果
リサーチクエスチョン
- RQ1大規模な VQ-VAE 画像トークナイザーを備えたトランスフォーマーは、一般ドメインで最先端のテキストツー画像生成を達成できるか?
- RQ2異種データ上で非常に大規模なテキストツー画像トランスフォーマーの訓練を安定化させるために必要な技術は何か?
- RQ3大規模クラスタ資源を追加せずに、超解像、キャプション付け、スタイル転送などの下流タスクに対して事前学習済みモデルをファインチューニングするにはどうすればよいか?
- RQ4内部指標に基づく自己リランキングと外部 CLIP ベースのリランキングを比較するとどうなるか?
- RQ5生成画像は自動評価指標(FID、IS、CapLoss)と人間評価の両方でベースラインとどう比較されるか?
主な発見
| Model | FID-0 | FID-1 | FID-2 | FID-4 | FID-8 | IS | CapLoss |
|---|---|---|---|---|---|---|---|
| AttnGAN | 35.2 | 44.0 | 72.0 | 108.0 | 100.0 | 23.3 | 3.01 |
| DM-GAN | 26.5 | 39.0 | 73.0 | 119.0 | 112.3 | 32.2 | 2.87 |
| DF-GAN | 26.5 | 33.8 | 55.9 | 91.0 | 97.0 | 18.7 | 3.09 |
| DALL-E | 27.5 | 28.0 | 45.5 | 83.5 | 85.0 | 17.9 | — |
| CogView | 27.1 | 19.4 | 13.9 | 19.4 | 23.6 | 18.2 | 2.43 |
- CogView はブラー処理された MS COCO で強力な自動評価指標を達成し、従来の GAN ベース手法を上回り、主要設定で DALL-E に密接に迫る。
- Caption Loss を用いた自己リランキングは CLIP を必要とせず画像選択を改善し、彼らの設定で MS COCO における FID で CLIP ベースのリランキングを上回る。
- ファインチューニングにより超解像、画像キャプション付け/自己リランキング、スタイル学習が可能となり、ファッションデザインや複数の芸術スタイルの例を含む。
- PB-relax と Sandwich-LN は、異種テキスト–画像コーパス上の 4B トランスフォーマーの訓練を効果的に安定化し、NaN 発生を減少させる。
- DALL-E と比較して、CogView は標準ベンチマークで競争力のある FID を示し、安定性と下流のファインチューニング能力において利点を持つ。
- モデルはドメイン特有のスタイル転送とパッチごとの超解像ファインチューニングによる高解像度ガイダンスをサポートする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。