[論文レビュー] MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer
MM-Interleaved は、生成時に多尺度高解像度画像特徴へアクセスする微細なマルチモーダル特徴同期子を用いた、インターリーブされた画像-テキストデータのエンドツーエンドモデルであり、正確なテキスト生成と視覚的に一貫した画像合成の両方を可能にします。
Developing generative models for interleaved image-text data has both research and practical value. It requires models to understand the interleaved sequences and subsequently generate images and text. However, existing attempts are limited by the issue that the fixed number of visual tokens cannot efficiently capture image details, which is particularly problematic in the multi-image scenarios. To address this, this paper presents MM-Interleaved, an end-to-end generative model for interleaved image-text data. It introduces a multi-scale and multi-image feature synchronizer module, allowing direct access to fine-grained image features in the previous context during the generation process. MM-Interleaved is end-to-end pre-trained on both paired and interleaved image-text corpora. It is further enhanced through a supervised fine-tuning phase, wherein the model improves its ability to follow complex multi-modal instructions. Experiments demonstrate the versatility of MM-Interleaved in recognizing visual details following multi-modal instructions and generating consistent images following both textual and visual conditions. Code and models are available at \url{https://github.com/OpenGVLab/MM-Interleaved}.
研究の動機と目的
- インターリーブされた画像-テキスト系列からのエンドツーエンド生成を動機づけ、可能にする。
- 固定された視覚トークン数による情報損失に対処するため、微細なマルチ画像特徴同期子を導入する。
- 生成中に複数の画像にわたって高解像度画像特徴へ直接アクセスを可能にする。
- 自社データなしで混在したインターリーブとペアデータで事前学習を行い、多様なマルチモーダルタスクでファインチューニングする。
- テキスト、画像、マルチモーダル指示にわたる生成と理解能力を示す。
提案手法
- 固定視覚トークンとマルチスケール画像特徴を生み出すVisual Foundation Model (VFM) 画像トークナイザーを導入する。
- インターリーブされた画像-テキスト系列を処理するLarge Language Model (LLM) を、微細な特徴同期機構 (MMFS) とともに組み込む。
- LLM からのコンテキスト特徴とマルチスケール画像特徴を受け取る画像デコーダとしてDiffusion Model (DM) を接続する。
- deformable sparse attention を用いて多画像・多スケール特徴へ動的に注意する MMFS モジュールを開発する。
- Next-Text-Token Prediction と Next-Image Prediction の損失を組み合わせた共同トレーニング目的を定義し、エンドツーエンド最適化を行う。
- 監督付きタスクでファインチューニングし、マルチモーダル指示への追従性を高める。
実験結果
リサーチクエスチョン
- RQ1VFM、LLM、DMを組み合わせたエンドツーエンドのフレームワークで、インターリーブされた画像-テキストデータをどのように効果的にモデル化できるか?
- RQ2変形可能なマルチモーダル特徴同步子は、限られた文脈内で複数画像の微細な画像 details を保持できるか?
- RQ3インターリーブ系列でのエンドツーエンド事前学習と、その後の監督付きファインチューニングによって、テキストと画像生成の品質にどのような利得が得られるか?
- RQ4MM-Interleaved は、キャプショニング、VQA、REC、セグメンテーション-画像翻訳、ビジュアルストーリーテリングなどのゼロショットおよびファインチューニング済みマルチモーダルタスクでどのように性能を発揮するか?
主な発見
- モデルは、社内データなしでもキャプショニング、VQA、関連タスクで高いゼロショットのマルチモーダル理解を示す。
- ファインチューニングされた MM-Interleaved は、参照表現理解およびビジュアルストーリーテリングのベンチマークで競争力のある、あるいは最先端の性能を達成する。
- MMFS は、単一画像および複数画像の文脈で、微細なディテールとピクセルレベルの整合性を備えた画像生成を可能にし、セグメンテーション-画像翻訳のベースラインを上回る。
- アプローチは、トークン効率を維持しつつ、複数画像のインターリーブ生成をサポートしつつ、テキスト-画像生成性能で競争力を達成する。
- 固定視覚トークンを使用するベースラインのマルチモーダルLLMと比較して、MM-Interleaved は画像あたりのトークン予算を少なくとも抑えつつ、ディテール保持を改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。