[論文レビュー] Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
LlamaGen は、適切なトークン化、スケーリング、データを用いた vanilla autoregressive image generation (next-token prediction) が最先端の性能に達成可能であることを示し、ImageNet 256×256 のクラス条件設定で拡散モデルを上回り、テキスト条件の結果でも競争力を持つ。
We introduce LlamaGen, a new family of image generation models that apply original ``next-token prediction'' paradigm of large language models to visual generation domain. It is an affirmative answer to whether vanilla autoregressive models, e.g., Llama, without inductive biases on visual signals can achieve state-of-the-art image generation performance if scaling properly. We reexamine design spaces of image tokenizers, scalability properties of image generation models, and their training data quality. The outcome of this exploration consists of: (1) An image tokenizer with downsample ratio of 16, reconstruction quality of 0.94 rFID and codebook usage of 97% on ImageNet benchmark. (2) A series of class-conditional image generation models ranging from 111M to 3.1B parameters, achieving 2.18 FID on ImageNet 256x256 benchmarks, outperforming the popular diffusion models such as LDM, DiT. (3) A text-conditional image generation model with 775M parameters, from two-stage training on LAION-COCO and high aesthetics quality images, demonstrating competitive performance of visual quality and text alignment. (4) We verify the effectiveness of LLM serving frameworks in optimizing the inference speed of image generation models and achieve 326% - 414% speedup. We release all models and codes to facilitate open-source community of visual generation and multimodal foundation models.
研究の動機と目的
- 視覚特有の帰納的バイアスを用いずに、 vanilla autoregressive モデルが画像生成で最先端に到達し得るかを再評価する。
- ARモデルに適した効率的な画像トークナイザーを設計・評価し、再構成品質を測定する。
- 数千万から十億パラメータ規模まで自己回帰画像モデルをスケールし、拡散モデルのベースラインと比較する。
- 視覚的忠実度とテキスト合わせを改善するためのデータ品質と学習戦略(2段階のテキスト条件学習)を検討する。
- 実用的なデプロイを可能にするため、LLM提供フレームワークを用いた推論速度の向上を実証する。
提案手法
- 画像をトークンに離散化するために、VQGAN風のエンコーダ—量子化器—デコーダを用いる画像トークナイザーを使用し、ダウンサンプル比率 p を用いて離散化する(16と8で評価)。
- Llama 系列のトランスフォーマー型自己回帰モデルを訓練し、次の画像トークンを条件付きで予測する(クラスまたはテキスト)。
- 訓練と推論の双方で分類器なしガイダンス(CFG)を適用し、画像品質とテキスト整合性を向上させる。
- テキスト条件生成のため FLAN-T5 XL による画像-テキストエンコーディングを採用し、LAION-COCO のサブセットでの2段階訓練を行い、次に高美的品質の社内データへ拡張する。
- 推論を加速するために vLLM サービングを活用し、ベースラインより大幅な速度向上を達成する。
- ImageNet 256×256 で FID、IS、Precision/Recall、PSNR、SSIM、コードブック使用を用いて評価し、拡散モデルおよび他の自己回帰/トークナイゼーションのベースラインと比較する。)
実験結果
リサーチクエスチョン
- RQ1慎重に設計された画像トークナイザーと訓練/スケーリング戦略を備えたベーシックな自己回帰画像生成モデルは、標準ベンチマークで拡散モデルを上回ることができるか?
- RQ2ARモデルにおける画像再構成品質と生成忠実度に最も影響を与えるトークナイゼーション、モデルスケーリング、データ戦略は何か?
- RQ3分類器なしガイダンスは、ARベースの画像生成における品質と多様性のトレードオフにどう影響するか?
- RQ4AR画像生成において、LLM提供フレームワーク(例:vLLM)を使用する場合の速度/スループットの向上はどの程度か?
主な発見
- ダウンサンプリング比率16の離散画像トークナイザーは、ImageNet で再構成品質0.94 rFIDとコードブック使用率97%を達成; 比率8は拡散モデルで使用される連続VAEと競合またはそれを上回る。
- クラス条件付き LlamaGen モデルは111M から3.1B パラメータまで; 最大モデルは ImageNet 256×256 で 2.18 FID に到達し、LDM および DiT のベースラインを上回る。
- 775M パラメータのテキスト条件生成は(50M LAION-COCO + 10M 高美的イメージで訓練)視覚品質とテキスト整合性が競争力を持つ。
- vLLM サービングフレームワークは、111M から 1.4B パラメータのモデル間で326% - 414%の速度向上をもたらす;ベースラインはすでに KV-Cache を使用。
- モデルサイズを拡大することで FID は XXL/3B まで一貫して改善されるが、ImageNet データの上限を考えると3B超では収益性が低下する。
- AR モデルは、よく設計されたトークナイザーとデータを備えた場合、256×256 ImageNet の標準ベンチマークで拡散モデルと競合するか、上回ることができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。