QUICK REVIEW

[論文レビュー] OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

Peng Wang, Yang An|arXiv (Cornell University)|Feb 7, 2022

Multimodal Machine Learning Applications被引用数 258

ひとこと要約

OFAは、タスク非依存・モダリティ非依存のSeq2Seqフレームワークを提示し、マルチモーダルおよび単一モーダル事前学習のためにアーキテクチャ、タスク、モダリティを統一し、公開コード付きでいくつかの vision-language タスクでSOTAを達成する。

ABSTRACT

In this work, we pursue a unified paradigm for multimodal pretraining to break the scaffolds of complex task/modality-specific customization. We propose OFA, a Task-Agnostic and Modality-Agnostic framework that supports Task Comprehensiveness. OFA unifies a diverse set of cross-modal and unimodal tasks, including image generation, visual grounding, image captioning, image classification, language modeling, etc., in a simple sequence-to-sequence learning framework. OFA follows the instruction-based learning in both pretraining and finetuning stages, requiring no extra task-specific layers for downstream tasks. In comparison with the recent state-of-the-art vision & language models that rely on extremely large cross-modal datasets, OFA is pretrained on only 20M publicly available image-text pairs. Despite its simplicity and relatively small-scale training data, OFA achieves new SOTAs in a series of cross-modal tasks while attaining highly competitive performances on uni-modal tasks. Our further analysis indicates that OFA can also effectively transfer to unseen tasks and unseen domains. Our code and models are publicly available at https://github.com/OFA-Sys/OFA.

研究の動機と目的

統一された、タスク非依存・モダリティ非依存のマルチモーダル事前学習パラダイムを追求する。
ゼロショットおよびクロスドメイン転移を可能にするため、タスク固有のヘッドやアダプタを排除する。
視覚・言語・クロスモダリティにわたる生成と理解の幅広いタスクを、1つのフレームワークで統合する。
相対的に少量のデータで、クロスモーダルおよび単一モダリティのベンチマークで競争力のある、またはSOTAの性能を示す。

提案手法

画像コード、領域トークン、BPEテキストトークンを用いた、共有のトークンベース語彙に多様なモダリティを表現する。
すべてのタスクに対して、事前学習・微調整・推論を通じて単一のアーキテクチャとしてトランスフォーマーのエンコーダ-デコーダを用いる。
すべての事前学習および下流タスクを、タスク指針を提供する手作りの指示付きのシーケンス対シーケンス生成として形成する。
公開画像-テキストペア2000万件で、視覚的グラウンド、グラウンディドキャプショニング、画像-テキスト照合、画像キャプション生成、VQA、物体検出、画像埋め込み、言語テキスト埋め込み（純粋なNLPタスクのため）を含むマルチタスク目的で事前学習する。
分類に類似した出力の効率と精度を向上させるために、Trieベースのデコーディング戦略を導入する。

実験結果

リサーチクエスチョン

RQ1単一のSeq2Seqモデルが、統一された指示表現を用いて、視覚と言語を横断する単一モーダリティおよびマルチモーダルタスクの両方を処理できるか？
RQ2タスク固有のヘッド/アダプタを削除し、モダリティ非依存の表現を強制することで、効果的なゼロショットおよびクロスドメイン転移が可能になるか？
RQ3多様なビジョン-ランゲージタスクを含むマルチタスク事前学習が、VQA、キャプショニング、グラウンディング、そして単一モーダリティのベンチマークにおける下流パフォーマンスにどのように影響するか？
RQ4クロスモーダルおよび単一モーダルの性能に関して、小型モデルと大型モデルのトレードオフは何か？
RQ5OFAはどの程度まで、ファインチューニングなしで未見のタスク/ドメインへ転移できるか？

主な発見

OFAは VQA test-stdで82.0、SNLI-VE testセットで91.0/91.2を達成し、クロスモーダル理解タスクで従来のSOTAを上回る。
MSCOCO image captioning（Karpathy分割）で、CIDEr最適化を用いてCIDEr 154.9を達成し、SimVLM HugeやLEMONなど従来のSOTA手法を上回る。
参照表現理解では、OFAは顕著な向上を達成：RefCOCO testA 90.67、RefCOCO+ testA 87.68、RefCOCOg test-u 88.78、従来のSOTAを数ポイント上回る。
テキストから画像生成では、OFAはFID 10.5、CLIPSIM 34.4、IS 31.1を達成し、CogViewとNÜWAよりサンプリングサイズを小さくして上回る。
単一モダリティタスクは競争力のある性能を示す：GLUE（SST-2, RTE, MRPC, QQP, QNLI, MNLI）とGigawordの抽象的要約は、モダリティ固有のベースラインに近い、またはそれを上回る高いスコアを達成し、OFAは自然言語タスクの多くで最先端モデルに匹敵または上回り、OFA LargeではImageNet-1K微調整精度85.6%を達成。
ゼロショット学習はGLUEタスクとSNLI-VEで競争力のある性能を示し、アウトオブドメイン画像での grounding QA や VQA など未見タスクへの転移も顕著である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。