QUICK REVIEW

[論文レビュー] Language Models are General-Purpose Interfaces

Yaru Hao, Haoyu Song|arXiv (Cornell University)|Jun 13, 2022

Topic Modeling被引用数 27

ひとこと要約

MetaLM は、双方向エンコーダ（言語と視覚）を因果言語モデルと接続する半因果言語モデルを訓練し、さまざまなタスクのための汎用インターフェースとして機能する。言語のみ、視覚言語設定の両方でマルチタスク微調整、指示学習、文脈内学習を可能にする。

ABSTRACT

Foundation models have received much attention due to their effectiveness across a broad range of downstream applications. Though there is a big convergence in terms of architecture, most pretrained models are typically still developed for specific tasks or modalities. In this work, we propose to use language models as a general-purpose interface to various foundation models. A collection of pretrained encoders perceive diverse modalities (such as vision, and language), and they dock with a language model that plays the role of a universal task layer. We propose a semi-causal language modeling objective to jointly pretrain the interface and the modular encoders. We subsume the advantages and capabilities from both causal and non-causal modeling, thereby combining the best of two worlds. Specifically, the proposed method not only inherits the capabilities of in-context learning and open-ended generation from causal language modeling, but also is conducive to finetuning because of the bidirectional encoders. More importantly, our approach seamlessly unlocks the combinations of the above capabilities, e.g., enabling in-context learning or instruction following with finetuned encoders. Experimental results across various language-only and vision-language benchmarks show that our model outperforms or is competitive with specialized models on finetuning, zero-shot generalization, and few-shot learning.

研究の動機と目的

多様なタスクを、普遍的なタスク層を媒介とした単一のオープンエンド生成インターフェースの下に統合する。
エンコーダとインターフェースを共同訓練する半因果事前学習目的を開発する。
MetaLM のインターフェースが、言語のみおよび視覚言語タスクの文脈内学習、微調整、ゼロショット/少数-shot-generalization をサポートすることを実証する。
非因果エンコーダと因果デコーダを組み合わせると、タスク固有のモデルと比較して競争力のある、あるいは superior な性能を示す。

提案手法

MetaLM を導入する。これは、単方向デコーダと、異なるモダリティ用の複数の双方向エンコーダ（コネクタ）を備える半因果言語モデルである。
半因果目的を設計し、エンコーダからの双方向スパン表現を条件付けしつつ、トークンを自己回帰的に生成する。
コネクタ層を用いてエンコーダの出力を普遍的タスク層に写像し、トークン予測の出力語彙を共有する。
大規模英語テキスト（Pile）で事前訓練し、視覚言語タスクには画像-テキスト対の共同事前訓練目的を用いる。
言語のみおよび視覚言語のベンチマークで、マルチタスク微調整、単一タスク微調整、指示調整、文脈内学習、ゼロ-/少数-shot 設定、および下流微調整を横断的に評価する。
MetaLM を、マルチタスク微調整での GPT との比較および複数タスククラスターにおける比較結果として提示する。

実験結果

リサーチクエスチョン

RQ1半因果前処理 Objective は、普遍的な言語モデルインターフェースが因果エンコーダと双方向エンコーダの両方の恩恵を受けることを可能にするか。
RQ2複数の双方向エンコーダを因果デコーダに接続することで、言語のみおよびマルチモーダルタスクのマルチタスク微調整、指示追従、および文脈内学習を効果的に実現できるか。
RQ3MetaLM は、ゼロショット/少数-shot の一般化、文脈内学習、そしてファインチューニングにおいて、タスク固有のベースラインと比較してどのように性能するか。
RQ4エンコーダのみを更新し、インターフェースを固定した場合の単一タスク微調整から得られる利得はどれほどか。
RQ5視覚言語タスクは、適切なコネクタを用いることで同じ半因果インターフェースで効果的に処理できるか。

主な発見

Task Cluster	GPT	MetaLM
Natural Language Inference	65.0	79.1
Sentiment	92.9	94.6
Paraphrase	83.9	89.6
Coreference	67.1	84.3
Commonsense Reasoning	63.3	84.2
Reading Comprehension	64.5	73.1
Miscellaneous	80.3	84.3
Closed-Book QA	38.2	44.3
Struct to Text	44.2	44.1
Summarization	29.8	31.0

MetaLM は、特に NLU と読解の領域で、ほとんどのマルチタスク微調整タスク群で GPT を一貫して上回る。
エンコーダのみを更新した単一タスク微調整は、インターフェースを固定した状態で強力なベースラインに対して競争力のある結果を示す。
MetaLM での指示調整は、ゼロショットおよび最良テンプレートのパフォーマンスをクラスター全体で大幅に向上させる。
MetaLM による文脈内学習は、いくつかの StoryCloze、HellaSwag、Winograd-Style、常識タスクで GPT と同等あるいは上回る。
視覚言語タスクでは、フレームワークはゼロショット、文脈内、およびファインチューニングモードをサポートし、VQA、キャプショニング、視覚推論、説明の分野で競争力のある結果を示す。
言語のみのタスク全般で、ファインチューニング時にはゼロショットと比較して自然言語推論、感情、同義表現、質問応答のクラスターで顕著な gains を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。