[論文レビュー] ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities
ONE-PEACEは、モダリティ・アダプターと共有融合エンコーダを備えたスケーラブルな4B-parameterモデルを提示し、普遍的な事前学習タスクを用いて視覚・音声・言語の表現を整合させ、外部の事前学習済み初期化なしで、単一モーダルおよびマルチモーダルタスクを広くカバーできるようにする。
In this work, we explore a scalable way for building a general representation model toward unlimited modalities. We release ONE-PEACE, a highly extensible model with 4B parameters that can seamlessly align and integrate representations across vision, audio, and language modalities. The architecture of ONE-PEACE comprises modality adapters, shared self-attention layers, and modality FFNs. This design allows for the easy extension of new modalities by adding adapters and FFNs, while also enabling multi-modal fusion through self-attention layers. To pretrain ONE-PEACE, we develop two modality-agnostic pretraining tasks, cross-modal aligning contrast and intra-modal denoising contrast, which align the semantic space of different modalities and capture fine-grained details within modalities concurrently. With the scaling-friendly architecture and pretraining tasks, ONE-PEACE has the potential to expand to unlimited modalities. Without using any vision or language pretrained model for initialization, ONE-PEACE achieves leading results on a wide range of uni-modal and multi-modal tasks, including image classification (ImageNet), semantic segmentation (ADE20K), audio-text retrieval (AudioCaps, Clotho), audio classification (ESC-50, FSD50K, VGGSound), audio question answering (AVQA), image-text retrieval (MSCOCO, Flickr30K), and visual grounding (RefCOCO/+/g). Code is available at https://github.com/OFA-Sys/ONE-PEACE.
研究の動機と目的
- 無限のモダリティに対応できるスケーラブルな一般表現モデルの動機づけ。
- モダリティ・アダプターと共有融合エンコーダを備えた柔軟なアーキテクチャの提案。
- モダリティを整合させ、モダリティ内の詳細を捉える普遍的な事前学習タスクの導入。
- 外部初期化なしで、視覚・音声・言語の単一モーダルおよびマルチモーダルタスクで高い性能を示す。
提案手法
- 生データをモダリティ固有の特徴列に変換するために、モダリティ・アダプター(V-Adapter、A-Adapter、L-Adapter)を使用する。
- 共有の自己注意層とモダリティ固有のFFN(V-FFN、A-FFN、L-FFN)を備えたモダリティ・フュージョン・エンコーダを採用する。
- トレーニングの安定性と性能のために、Sub-LayerNorm、GeGLU活性化、相対位置バイアス、LayerScaleを適用する。
- 普遍的な2つのタスクで事前学習する:クロスモーダル整列コントラスト(視覚-言語および音声-言語)と、5つのデータタイプ(画像、音声、テキスト、画像-テキスト、音声-テキスト)にわたるモダリティ内のノイズ除去対比学習。
- 新しいモダリティへの柔軟な拡張のために、V-Branch、A-Branch、L-Branch、およびマルチモーダル分岐など、タスク特定のブランチへ分解する。

実験結果
リサーチクエスチョン
- RQ1ONE-PEACEは無限のモダリティにスケールさせつつ、効果的なクロスモーダル整列を維持できるか?
- RQ2モダリティ固有の設計なしに、普遍的な事前学習タスク(クロスモーダルおよびモダリティ内ノイズ除去)だけで高い性能を達成できるか?
- RQ3最先端と比較して、視覚・音声・視覚言語/音声言語タスクの広範なスイートで本アーキテクチャの性能はどうか?
- RQ4スケーリングに優れたモジュラーなTransformerベースのフュージョン手法がマルチモーダル学習にもたらす利点は何か?
主な発見
- ONE-PEACEは初期化済みの事前学習モデルなしでImageNet画像分類においてトップ-1 89.8%の高い結果を達成する。
- セマンティックセグメンテーションではADE20Kで63.0 mIoUを達成し、評価プロトコル下で新たな最先端となる。
- 音声-テキスト検索では、AudioCapsとClothoで従来のSOTAを大きく上回る。
- 音声分類では、視覚情報なしでESC-50でゼロショット精度91.8%、FSD50Kで69.7%を達成。
- 画像-テキスト検索では、COCOで0ショット/ファインチューニング比較においてR@1 84.1、Flickr30KでR@1 97.6を達成し、RefCOCO/+/gの視覚的定位では89.26/83.23/89.27を示す。
- タスク全体を通じて、外部モデル初期化なしで強力なクロスモーダルおよびモダリティ内学習能力を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。