QUICK REVIEW

[論文レビュー] 4M: Massively Multimodal Masked Modeling

David Mizrahi, Roman Bachmann|arXiv (Cornell University)|Dec 11, 2023

Multimodal Machine Learning Applications被引用数 9

ひとこと要約

4M は、単一の統一された Transformer を訓練して多くのモダリティ（テキスト、画像、幾何、意味、ニューラル特徴）をモデル化し、マルチモーダルマスクドモデリング目的を用いる。これにより、そのまま利用できる視覚タスク、未知モダリティへの強い転移、柔軟なマルチモーダル生成と編集が可能になる。

ABSTRACT

Current machine learning models for vision are often highly specialized and limited to a single modality and task. In contrast, recent large language models exhibit a wide range of capabilities, hinting at a possibility for similarly versatile models in computer vision. In this paper, we take a step in this direction and propose a multimodal training scheme called 4M. It consists of training a single unified Transformer encoder-decoder using a masked modeling objective across a wide range of input/output modalities - including text, images, geometric, and semantic modalities, as well as neural network feature maps. 4M achieves scalability by unifying the representation space of all modalities through mapping them into discrete tokens and performing multimodal masked modeling on a small randomized subset of tokens. 4M leads to models that exhibit several key capabilities: (1) they can perform a diverse set of vision tasks out of the box, (2) they excel when fine-tuned for unseen downstream tasks or new input modalities, and (3) they can function as a generative model that can be conditioned on arbitrary modalities, enabling a wide variety of expressive multimodal editing capabilities with remarkable flexibility. Through experimental analyses, we demonstrate the potential of 4M for training versatile and scalable foundation models for vision tasks, setting the stage for further exploration in multimodal learning for vision and other domains.

研究の動機と目的

複数のモダリティとタスクに対応する、視覚用の汎用でスケーラブルな基盤モデルの開発を促す。
多様な入力/出力モダリティに跨るマルチモーダルマスクドモデリング目的で訓練された統一型 Transformer エンコーダ–デコーダを提案する。
単一のモデルが核となる視覚タスクを実行し、未見のモダリティやタスクへ良好に転移し、マルチモーダル条件付き生成と編集をサポートできることを示す。

提案手法

モダリティごとに特定のトークナイザを用いて、それぞれのモダリティを離散トークンの列または集合にマッピングすることで、多様なモダリティを統一する。
クロスアテンションとモダリティ特有のデコーダーマスクを用いて、任意のモダリティペア間の写像を行う単一の Transformer エンコーダ–デコーダを用いる。
すべてのモダリティから入力とターゲットトークンのサブセットをランダムにサンプリングするマルチモーダルマスクドモデリング目的で訓練し、スケーラブルなクロスモーダル予測コード化を可能にする。
明示的なマルチモーダルアノテーションを欠くモダリティを整列させるためのバインディングネットワークを使用して、CC12M に由来する疑似ラベル付きマルチモーダルデータセットで事前訓練する。
任意のモダリティを条件として、複数モダリティの生成と編集を実現するために、反復的なトークンデコードを通じた生成能力を示す。

実験結果

リサーチクエスチョン

RQ1単一の統一モデルは、テキスト、画像に類するモダリティ、およびニューラル特徴間でクロスモーダル表現を学習できるか？
RQ2マルチモーダルマスキングとトークナイゼーションは、スケーラビリティ、未知モダリティへの転移、生成/編集機能にどのように影響するか？
RQ3未見の下流タスクやモダリティに対してファインチューニング前後で、モデルはどの程度まで視覚タスクをそのまま実行できるか？
RQ4入力/ターゲットモダリティの選択とマスキング戦略が表現学習と下流転移に及ぼす影響は？
RQ5任意のモダリティを条件とする可操縦なマルチモーダルジェネレータとしてのモデルの有効性はどの程度か？

主な発見

4M は、タスク固有のアーキテクチャを必要とせず、多くの視覚タスクを可能にする豊かなクロスモーダル表現を学習する。
すべての入力モダリティとターゲットモダリティでの事前訓練は、検出、セグメンテーション、深度推定などの下流タスクへの強い転移をもたらし、多くの設定でいくつかのベースラインを上回る。
このモデルはマルチモーダル条件付き生成とインペインティングをサポートし、意味的編集と幾何学的根拠を持つ生成を可能にする。
アブレーション研究は、マルチモーダル事前訓練とターゲットモダリティの選択が転移性能に大きく影響することを示し、全モダリティ事前訓練が一般に最も広い有用性を提供する。
スケーリング分析は、実用的な限界まで、データセットの拡大、長い訓練期間、およびモデルサイズの大きさとともに性能が向上することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。