QUICK REVIEW

[論文レビュー] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

Lili Yu, Bowen Shi|arXiv (Cornell University)|Sep 5, 2023

Multimodal Machine Learning Applications被引用数 27

ひとこと要約

CM3Leonは取得補助付きのトークンベースデコーダー専用の多模態モデルで、テキストと画像を生成およびインフィルすることができ、学習計算を大幅に削減しつつ指示後チューニングを強化した最先端のテキスト-to-画像生成を達成します。

ABSTRACT

We present CM3Leon (pronounced "Chameleon"), a retrieval-augmented, token-based, decoder-only multi-modal language model capable of generating and infilling both text and images. CM3Leon uses the CM3 multi-modal architecture but additionally shows the extreme benefits of scaling up and tuning on more diverse instruction-style data. It is the first multi-modal model trained with a recipe adapted from text-only language models, including a large-scale retrieval-augmented pre-training stage and a second multi-task supervised fine-tuning (SFT) stage. It is also a general-purpose model that can do both text-to-image and image-to-text generation, allowing us to introduce self-contained contrastive decoding methods that produce high-quality outputs. Extensive experiments demonstrate that this recipe is highly effective for multi-modal models. CM3Leon achieves state-of-the-art performance in text-to-image generation with 5x less training compute than comparable methods (zero-shot MS-COCO FID of 4.88). After SFT, CM3Leon can also demonstrate unprecedented levels of controllability in tasks ranging from language-guided image editing to image-controlled generation and segmentation.

研究の動機と目的

オートリグレッシブでトークンベースの多模态モデルが、拡張取得を用いた場合に拡散ベースの手法と同等以上の画像生成性能を、低い計算量で達成できることをデモンストレーションする。
ライセンス付きデータ（Shutterstock）を用いた取得補助付き事前学習パイプラインの多模态タスクへの利点を示す。
混合画像-テキストタスクに対するSFT（指示チューニング）を含む大規模なマルチタスク教師あり微調整の影響を評価する。
生成品質を向上させる自己完結型の対照的デコーディングを探る。
SFT後のテキスト-to-画像と画像-to-テキスト生成の制御性を備えた汎用的なCM3Leonモデルとして確立する。

提案手法

CM3多模态アーキテクチャをデコーダー専用の取得補助モデルへと適合化する（CM3Leon）。
Dense CLIPベースのリトリーバーとMIPSを用い、ライセンス付きShutterstock画像とテキストによる大規模な取得補助データで事前学習を行う。
モダリティ間の移行を促進する novelな<break>トークンを組み込み、CM3スタイルの目的関係を用いて多模态のインフィリングと生成を行う。
混合の画像-テキストタスクに対する指示チューニングを行う二段階のマルチタスク教師あり微調整（SFT）を適用する。
自己完結型の対照的デコーディング手法を導入し、テキストと画像生成を改善する。CD-Kのバリアントと分類器フリーガイダンス（CFG）を含む。
デコーディング戦略（温度、Top-P、CFG、CD-K）を評価し、ゼロショットMS-COCO FIDや他タスクへの影響を定量化するリトリーバルアブレーション研究を実施する。

実験結果

リサーチクエスチョン

RQ1取得補助と効率的な学習を取り入れたオートリグレッシブなトークンベースの多模态モデルは、テキスト-to-画像の質で競争力があるか、あるいは上回るか。
RQ2事前学習時の取得補助は、画像とテキストタスクにおけるゼロショットおよび少数ショット生成性能を向上させるか。
RQ3大規模な指示チューニング（SFT）が混合画像-テキストタスクの制御性と性能にどのような影響を与えるか。
RQ4高度なデコーディング戦略（CFG、Top-P、CD-K）は、マルチモーダル出力の生成品質と多様性にどのような影響を及ぼすか。
RQ5CM3Leonのモデルサイズ別の標準ベンチマーク（ゼロショットMS-COCO FIDなど）での相対的な性能はどうか。

主な発見

CM3Leon-7Bは、7Bパラメータのみで新しいゼロショットMS-COCO FID 4.88を達成し、同程度の手法よりも大幅に少ない学習計算を要した。
取得補助は効率的な学習の鍵であり、取得を用いないベースラインと比べて生成品質を改善する。
SFT（指示チューニング）は、言語誘導画像編集、画像条件付き生成、セグメンテーションなどのタスクに対する前例のない制御性を可能にする。
自己完結型の対照的デコーディング手法（CD-K）はCFGと競合する、あるいは補完的な利得を提供し、他のデコーダと組み合わせると生成を改善する。
CM3Leonモデル（350M、760M、7B）は損失の安定的な低減と有利なスケーリング挙動を示し、CM3Leon-7Bはテキスト-to-画像および画像-to-テキストタスクの両方で強力な性能を発現する。
このモデルは、KNN-DiffusionやRE-IMAGENなどの取得補助ベースラインに対してゼロショットMS-COCO FIDで優れた性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。