[論文レビュー] Vector-quantized Image Modeling with Improved VQGAN
本論文は、ViT-VQGANを導入し、VIMのベクトル量子化画像モデリングを向上させ、ImageNetで最先端のFID/ISを達成し、2段階のViT-VQGANエンコーダ/デコーダと自己回帰トークンモデリングのデコーダ中心Transformerによる強力な自己教師付き表現を実現している。
Pretraining language models with next-token prediction on massive text corpora has delivered phenomenal zero-shot, few-shot, transfer learning and multi-tasking capabilities on both generative and discriminative language tasks. Motivated by this success, we explore a Vector-quantized Image Modeling (VIM) approach that involves pretraining a Transformer to predict rasterized image tokens autoregressively. The discrete image tokens are encoded from a learned Vision-Transformer-based VQGAN (ViT-VQGAN). We first propose multiple improvements over vanilla VQGAN from architecture to codebook learning, yielding better efficiency and reconstruction fidelity. The improved ViT-VQGAN further improves vector-quantized image modeling tasks, including unconditional, class-conditioned image generation and unsupervised representation learning. When trained on ImageNet at \(256\times256\) resolution, we achieve Inception Score (IS) of 175.1 and Fr'echet Inception Distance (FID) of 4.17, a dramatic improvement over the vanilla VQGAN, which obtains 70.6 and 17.04 for IS and FID, respectively. Based on ViT-VQGAN and unsupervised pretraining, we further evaluate the pretrained Transformer by averaging intermediate features, similar to Image GPT (iGPT). This ImageNet-pretrained VIM-L significantly beats iGPT-L on linear-probe accuracy from 60.3% to 73.2% for a similar model size. VIM-L also outperforms iGPT-XL which is trained with extra web image data and larger model size.
研究の動機と目的
- CNNを量子化器に代替しVision Transformersを採用して効率と忠実度を改善する。
- 下流の自己回帰モデリングのために、コードブックの使用と再構成品質を向上させるViT-VQGAN量子化器を開発する。
- 離散画像トークン上で訓練されたTransformerが無条件/クラス条件生成および自己教師付き表現学習を行えることを示す。
- 強力な画像生成指標(FID/IS)と競争力のある線形プローブ性能を、先行の生成的・識別的事前学習法と比較して示す。
提案手法
- VQGANフレームワーク内のCNNエンコーダ/デコーダをVision Transformersに置換し、エンドツーエンドの画像量子化を実現する(ViT-VQGAN)。
- 低次元因子化コードインデックス、L2正規化、学習目的(logit-laplace、L2、知覚的、GAN損失)などの要因でコードブックの使用と再構成を改善する。
- ViT-VQGANで作成された1024個の画像トークンを自己回帰モデル化するデコーダ中心Transformer(VIM)を訓練する。
- 自己教師付き学習のために、中間ブロックの平均特徴からsoftmaxヘッドを訓練して線形プローブを評価する。
- クラス条件付き生成のため、サンプリング時に画像トークンの前にクラスIDトークンを前置して画像を条件付けする。
実験結果
リサーチクエスチョン
- RQ1ViTベースの量子化(ViT-VQGAN)はCNNベースのVQGANより再構成品質とコードブックの使用を改善できるか。
- RQ2離散画像トークン上のTransformerを用いたVIMフレームワークは、無条件およびクラス条件付きの強力な画像生成を実現するか。
- RQ3VIMから学習された表現は、ImageNetで他の生成的・識別的事前学習方法と比較して競争力のある線形プローブ精度を生むか。
- RQ4エンコーダ/デコーダのサイズ、コードブック設計、正規化などのアーキテクチャ上の選択はFID/ISと下流の線形評価にどのような影響を与えるか。
- RQ5自己教師付き訓練時に知覚損失を除去することと生成タスクで含めることの影響は?
主な発見
- ViT-VQGANはCNN-VQGANより再構成品質が高く、スループットも向上する。
- ViT-VQGAN + VIM-Largeを用いた無条件ImageNet生成はIS 175.1、FID 4.17、 vanilla VQGANのIS 70.6、FID 17.04に対して優れる。
- ImageNetでVIM-Largeの線形プローブ精度は73.2%に達し、iGPT-L(60.3%)およびiGPT-XLを上回り、自己教師付き表現が強いことを示す。
- 表の結果は、8192コードブックサイズと1024トークンのViT-VQGANがImageNetで優れたFID (1.28) を示し、CelebA-HQとFFHQでも同様の利得を得る。
- ViT-VQGANによるクラス条件付きサンプリングはIS 175.1、FID 4.17 (L=Large stage 2)、分類器ベースの拒否サンプリングを適用するとFIDが3.04、ISが227.4へ改善。
- 自己教師付き表現(VIM-Large)はImageNetで73.2%の線形プローブ精度を達成し、iGPT-Lを上回り、BYOL/DINOなどの識別的手法と線形評価で近い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。