Skip to main content
QUICK REVIEW

[論文レビュー] ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

Peng Wang, Shijie Wang|arXiv (Cornell University)|May 18, 2023
Multimodal Machine Learning Applications被引用数 42
ひとこと要約

ONE-PEACEは、モダリティ・アダプターと共有融合エンコーダを備えたスケーラブルな4B-parameterモデルを提示し、普遍的な事前学習タスクを用いて視覚・音声・言語の表現を整合させ、外部の事前学習済み初期化なしで、単一モーダルおよびマルチモーダルタスクを広くカバーできるようにする。

ABSTRACT

In this work, we explore a scalable way for building a general representation model toward unlimited modalities. We release ONE-PEACE, a highly extensible model with 4B parameters that can seamlessly align and integrate representations across vision, audio, and language modalities. The architecture of ONE-PEACE comprises modality adapters, shared self-attention layers, and modality FFNs. This design allows for the easy extension of new modalities by adding adapters and FFNs, while also enabling multi-modal fusion through self-attention layers. To pretrain ONE-PEACE, we develop two modality-agnostic pretraining tasks, cross-modal aligning contrast and intra-modal denoising contrast, which align the semantic space of different modalities and capture fine-grained details within modalities concurrently. With the scaling-friendly architecture and pretraining tasks, ONE-PEACE has the potential to expand to unlimited modalities. Without using any vision or language pretrained model for initialization, ONE-PEACE achieves leading results on a wide range of uni-modal and multi-modal tasks, including image classification (ImageNet), semantic segmentation (ADE20K), audio-text retrieval (AudioCaps, Clotho), audio classification (ESC-50, FSD50K, VGGSound), audio question answering (AVQA), image-text retrieval (MSCOCO, Flickr30K), and visual grounding (RefCOCO/+/g). Code is available at https://github.com/OFA-Sys/ONE-PEACE.

研究の動機と目的

  • 無限のモダリティに対応できるスケーラブルな一般表現モデルの動機づけ。
  • モダリティ・アダプターと共有融合エンコーダを備えた柔軟なアーキテクチャの提案。
  • モダリティを整合させ、モダリティ内の詳細を捉える普遍的な事前学習タスクの導入。
  • 外部初期化なしで、視覚・音声・言語の単一モーダルおよびマルチモーダルタスクで高い性能を示す。

提案手法

  • 生データをモダリティ固有の特徴列に変換するために、モダリティ・アダプター(V-Adapter、A-Adapter、L-Adapter)を使用する。
  • 共有の自己注意層とモダリティ固有のFFN(V-FFN、A-FFN、L-FFN)を備えたモダリティ・フュージョン・エンコーダを採用する。
  • トレーニングの安定性と性能のために、Sub-LayerNorm、GeGLU活性化、相対位置バイアス、LayerScaleを適用する。
  • 普遍的な2つのタスクで事前学習する:クロスモーダル整列コントラスト(視覚-言語および音声-言語)と、5つのデータタイプ(画像、音声、テキスト、画像-テキスト、音声-テキスト)にわたるモダリティ内のノイズ除去対比学習。
  • 新しいモダリティへの柔軟な拡張のために、V-Branch、A-Branch、L-Branch、およびマルチモーダル分岐など、タスク特定のブランチへ分解する。
Figure 1: The architecture of ONE-PEACE . It consists of three modality adapters and a modality fusion encoder. ONE-PEACE can be disassembled into different branches to handle different tasks. For example, the vision adapter, self-attention layers, and vision FFNs can be combined into V-Branch to ha
Figure 1: The architecture of ONE-PEACE . It consists of three modality adapters and a modality fusion encoder. ONE-PEACE can be disassembled into different branches to handle different tasks. For example, the vision adapter, self-attention layers, and vision FFNs can be combined into V-Branch to ha

実験結果

リサーチクエスチョン

  • RQ1ONE-PEACEは無限のモダリティにスケールさせつつ、効果的なクロスモーダル整列を維持できるか?
  • RQ2モダリティ固有の設計なしに、普遍的な事前学習タスク(クロスモーダルおよびモダリティ内ノイズ除去)だけで高い性能を達成できるか?
  • RQ3最先端と比較して、視覚・音声・視覚言語/音声言語タスクの広範なスイートで本アーキテクチャの性能はどうか?
  • RQ4スケーリングに優れたモジュラーなTransformerベースのフュージョン手法がマルチモーダル学習にもたらす利点は何か?

主な発見

  • ONE-PEACEは初期化済みの事前学習モデルなしでImageNet画像分類においてトップ-1 89.8%の高い結果を達成する。
  • セマンティックセグメンテーションではADE20Kで63.0 mIoUを達成し、評価プロトコル下で新たな最先端となる。
  • 音声-テキスト検索では、AudioCapsとClothoで従来のSOTAを大きく上回る。
  • 音声分類では、視覚情報なしでESC-50でゼロショット精度91.8%、FSD50Kで69.7%を達成。
  • 画像-テキスト検索では、COCOで0ショット/ファインチューニング比較においてR@1 84.1、Flickr30KでR@1 97.6を達成し、RefCOCO/+/gの視覚的定位では89.26/83.23/89.27を示す。
  • タスク全体を通じて、外部モデル初期化なしで強力なクロスモーダルおよびモダリティ内学習能力を示す。
Figure 2: The pretraining tasks of ONE-PEACE. Intra-modal denoising contrastive learning encourages the features of the masked units (e.g., image patches or text tokens) close to the positive units (indicated by the green lines) and get away from the negative units (indicated by the red lines). Note
Figure 2: The pretraining tasks of ONE-PEACE. Intra-modal denoising contrastive learning encourages the features of the masked units (e.g., image patches or text tokens) close to the positive units (indicated by the green lines) and get away from the negative units (indicated by the red lines). Note

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。