QUICK REVIEW

[論文レビュー] Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks

Yizhong Wang, Swaroop Mishra|arXiv (Cornell University)|Apr 16, 2022

Natural Language Processing Techniques被引用数 46

ひとこと要約

本論文は Sup-NatInst を提案する。1,616-task の自然言語指示ベンチマークと、知らないタスクへ一般化するマルチタスクモデル Tk-Instruct が、英語タスクで InstructGPT を上回り、他言語間の汎化も強力であることを示す。

ABSTRACT

How well can NLP models generalize to a variety of unseen tasks when provided with task instructions? To address this question, we first introduce Super-NaturalInstructions, a benchmark of 1,616 diverse NLP tasks and their expert-written instructions. Our collection covers 76 distinct task types, including but not limited to classification, extraction, infilling, sequence tagging, text rewriting, and text composition. This large and diverse collection of tasks enables rigorous benchmarking of cross-task generalization under instructions -- training models to follow instructions on a subset of tasks and evaluating them on the remaining unseen ones. Furthermore, we build Tk-Instruct, a transformer model trained to follow a variety of in-context instructions (plain language task definitions or k-shot examples). Our experiments show that Tk-Instruct outperforms existing instruction-following models such as InstructGPT by over 9% on our benchmark despite being an order of magnitude smaller. We further analyze generalization as a function of various scaling parameters, such as the number of observed tasks, the number of instances per task, and model sizes. We hope our dataset and model facilitate future progress towards more general-purpose NLP models.

研究の動機と目的

指示ベースの一般化の範囲を、公開の大規模で多様な NLP タスクベンチマークと付随する指示で拡張する。
宣言的な文脈内指示に従うマルチタスクモデルを訓練し、未見タスクへのゼロショット一般化を実証する。
タスクの多様性、データ、モデルサイズといったスケーリング要因が、タスク間・言語間の一般化を改善することを分析する。

提案手法

自然言語タスク定義、正例/負例を含む 76 種類のタスクタイプ、55 言語にまたがる 1,616 NLP タスクのメタデータセットである Sup-NatInst を構築する。
各タスク指示を統一的なテキストスキーマとして表現し、品質管理のための同僚評価とクラウドのフィードバックを用いたマルチコントリビューション・パイプラインを採用する。
すべての訓練タスク指示に基づく T5 ボトムアップでのマルチタスク訓練を行い、未見タスクで評価する; 非英語タスク用には mT5 ベースの多言語版 MT k-Instruct も訓練する。
指示は、入力例の前にタスク定義と選択されたデモンストレーション例を結合してプロンプトを形成することによってエンコードする。
英語の未見タスクとクロスリンガルの未見タスクの2つのトラックで、オープンエンドな ROUGE-L 生成指標を用いて評価する。人間評価も補足する。

実験結果

リサーチクエスチョン

RQ1宣言的な自然言語指示が与えられた場合、モデルは未見の NLP タスクへどれだけうまく一般化できるか？
RQ2訓練データの多様性（タスク数、タスクあたりのインスタンス数）とモデルサイズが、未見タスクへの一般化にどのように影響するか？
RQ3広範なタスクで訓練された指示遵守モデルは、未見タスクにおいて大規模な専有指示調整済みモデルを上回れるか？
RQ4宣告的な指示の下で、英語のみの一般化と比較してクロスリンガル一般化はどう差異があるか？

主な発見

タスク	英語（En）	クロスリンガル（X-lingual）	ノート
Copying Instance Input	14.2	5.4	Heuristic baseline
Copying Demo Output	28.5	50.3	Heuristic baseline
T5-LM (11B)		30.2	Pretrained LM baseline
GPT-3 (175B)	45.0	51.3	Pretrained LM baseline
T0 (11B)	32.3	–	Instruction-tuned baseline
InstructGPT (175B)	52.1	52.8	Instruction-tuned baseline
T k-Instruct (11B)	62.0	–	Ours, English track
m T k-Instruct (13B)	57.1	66.1	Ours, multilingual track
Upper-bound (est.)	74.3	94.0	Supervised training upper bound

Tk-Instruct (11B) は 119 の未見英語タスクで InstructGPT (175B) を ROUGE-L 点で 9.9 ポイント上回った。
mT k-Instruct (13B) は 35 の非英語タスクで InstructGPT を ROUGE-L 点で 13.3 ポイント上回った。
人間評価では、Tk-Instruct の出力がテストインスタンスのグラウンドトゥルースより少なくとも良いと判断された割合が 77% に達した。
訓練タスクの多様性とモデルサイズの両方を拡大すると、クロス・タスク一般化が向上し、観測されるタスク数とモデルサイズの指数的な増加は ROUGE-L で線形の性能向上を示す。
現状の指示調整済みモデルを超える潜在的な改善余地が大きくあることを、上限推定が示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。