[論文レビュー] Making LLaMA SEE and Draw with SEED Tokenizer
SEEDは1D因果トークンを用いた離散画像トークン化器を導入し、LLMが視覚情報を“見る” and“描く”ことを可能にする。これによりSEED-LLaMAが生まれ、視覚とテキストの混在データを統一された次語予測で処理できるマルチモーダルLLMとして前訓練・指示チューニングされる。
The great success of Large Language Models (LLMs) has expanded the potential of multimodality, contributing to the gradual evolution of General Artificial Intelligence (AGI). A true AGI agent should not only possess the capability to perform predefined multi-tasks but also exhibit emergent abilities in an open-world context. However, despite the considerable advancements made by recent multimodal LLMs, they still fall short in effectively unifying comprehension and generation tasks, let alone open-world emergent abilities. We contend that the key to overcoming the present impasse lies in enabling text and images to be represented and processed interchangeably within a unified autoregressive Transformer. To this end, we introduce SEED, an elaborate image tokenizer that empowers LLMs with the ability to SEE and Draw at the same time. We identify two crucial design principles: (1) Image tokens should be independent of 2D physical patch positions and instead be produced with a 1D causal dependency, exhibiting intrinsic interdependence that aligns with the left-to-right autoregressive prediction mechanism in LLMs. (2) Image tokens should capture high-level semantics consistent with the degree of semantic abstraction in words, and be optimized for both discriminativeness and reconstruction during the tokenizer training phase. With SEED tokens, LLM is able to perform scalable multimodal autoregression under its original training recipe, i.e., next-word prediction. SEED-LLaMA is therefore produced by large-scale pretraining and instruction tuning on the interleaved textual and visual data, demonstrating impressive performance on a broad range of multimodal comprehension and generation tasks. More importantly, SEED-LLaMA has exhibited compositional emergent abilities such as multi-turn in-context multimodal generation, acting like your AI assistant.
研究の動機と目的
- テキストと画像の統一表現を動機づけ、単一の自己回帰トランスフォーマーで処理を切替可能にする。
- 1D因果的で単語と意味的に高次に整合した視覚トークン化器を設計し、LLM訓練目標に適合させる。
- 既存のLLM語彙へ離散的な画像トークンを追加して、スケーラブルなマルチモーダル pretraining と instruction tuning を可能にする。
- マルチターンの画像-テキスト生成および構成的な画像生成を含む出現的マルチモーダル能力を実証する。
提案手法
- ViTエンコーダ、Causal Q-Former、VQコードブック、MLP、UNetデコーダを備えたVQベースの画像トークナイザーであるSEEDを提案する。
- 対比学習を用いてImage-Textキャプションと共に2D ViT特徴を1D因果系列の埋め込みへ変換するCausal Q-Formerを訓練する。
- VQコードブックを介して因果埋め込みを離散化し、32個の因果視覚コードを生成し、MLPでデトークン化してunCLIP-SD潜在空間と整合させ、画像生成を行う。
- 統一された次語予測目標を用いた視覚-テキスト、ビデオ-テキスト、画像-テキストデータのマルチモーダルpretrainingを通じてSEED-LLaMAを前訓練する。
- 監督付き微調整(LoRAベースの後、完全微調整)による指示チューニングでSEED-LLaMAを人間の指示に整合させる。
- 画像キャプショニング、VQA、ビデオQ&A、テキストから画像生成などのマルチモーダル理解・生成タスクで評価し、マルチターンの文脈内マルチモーダル生成の定性的デモを行う。

実験結果
リサーチクエスチョン
- RQ11Dの因果離散画像トークナイザーが単語トークンと意味的に一致して統一的な自己回帰マルチモーダルモデルを可能にするか?
- RQ2SEEDは元の次語予測目標内でスケーラブルなマルチモーダルpretrainingと指示チューニングを実現するか?
- RQ3SEED-LLaMAはマルチターンの文脈内生成、構成的画像生成などどのような出現的マルチモーダル能力を示すか?
- RQ4SEEDは視覚理解・生成ベンチマークで既存のマルチモーダルLLMアプローチと比べてどの程度性能か?
主な発見
- SEEDトークナイザーは離散的な因果視覚コードを生成し、画像-テキスト検索の性能と高レベルの意味表現で競争力を持つ。
- 凍結されたSD-UNetを用いたSEEDトークンからの画像再構成は入力画像と意味的一貫性を保持し、CLIPベースの類似度はunCLIP-SDの上限に近い。
- SEED-LLaMAは画像、ビデオ、テキストのタスクで競争力のあるマルチモーダル理解・生成結果を達成し、マルチターンの文脈内マルチモーダル生成を示す。
- 指示チューニングとモデルサイズの拡大によりSEED-Benchおよび関連ベンチマークで性能が向上する。
- SEEDは構成的ゼロショット画像生成を可能にし、スタイル化画像生成、画像ブレンディング、マルチモーダル構成を指示に従って誘導可能である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。