Skip to main content
QUICK REVIEW

[論文レビュー] All NLP Tasks Are Generation Tasks: A General Pretraining Framework

Zhengxiao Du, Yujie Qian|arXiv (Cornell University)|Mar 18, 2021
Topic Modeling参考文献 33被引用数 40
ひとこと要約

この論文は、分類、無条件生成、条件付き生成のすべての自然言語処理(NLP)タスクを、1つのアーキテクチャで統一的にテキスト生成タスクとして扱うGLMという統合的プレトレーニングフレームワークを提案する。GLMは、多様なNLPタスクで最先端のパフォーマンスを達成し、同じプレトレーニングデータを用いた場合にSuperGLUEでBERTを上回り、パラメータ数が1.25倍のBERT-Largeと同等またはそれを上回る性能を、すべてのタスクタイプで達成している。

ABSTRACT

There have been various types of pretraining architectures including autoregressive models (e.g., GPT), autoencoding models (e.g., BERT), and encoder-decoder models (e.g., T5). On the other hand, NLP tasks are different in nature, with three main categories being classification, unconditional generation, and conditional generation. However, none of the pretraining frameworks performs the best for all tasks, which introduces inconvenience for model development and selection. We propose a novel pretraining framework GLM (General Language Model) to address this challenge. Compared to previous work, our architecture has three major benefits: (1) it performs well on classification, unconditional generation, and conditional generation tasks with one single pretrained model; (2) it outperforms BERT-like models on classification due to improved pretrain-finetune consistency; (3) it naturally handles variable-length blank filling which is crucial for many downstream tasks. Empirically, GLM substantially outperforms BERT on the SuperGLUE natural language understanding benchmark with the same amount of pre-training data. Moreover, GLM with 1.25x parameters of BERT-Large achieves the best performance in NLU, conditional and unconditional generation at the same time, which demonstrates its generalizability to different downstream tasks.

研究の動機と目的

  • 異なるNLPタスクに対して異なるプレトレーニングフレームワークを用いることによる課題に取り組むこと。これは、モデル開発と選定を複雑にする。
  • 分類タスクにおけるプレトレイン・ファインチューニングの一貫性を改善すること。BERTに類似したモデルでは、しばしば性能が低くなることがある。
  • 1つの事前学習済みモデルが、分類、無条件生成、条件付き生成タスクを効果的に処理できることを実現すること。
  • 変動長の穴埋めを自然にサポートできること。これは、多くの下流NLPアプリケーションにとって重要な能力である。

提案手法

  • GLMは、自己回帰的生成を可能にしつつ、分類タスクに適したエンコーダー風の表現を維持するため、因果的アテンションマスクを採用する。
  • すべてのNLPタスクをテキスト生成として扱う統一された目的関数を用いる。穴埋めタスクにはマスクされたスパン予測を含む。
  • 1つのトランスフォーマー基盤フレームワーク内に、デコーダーとエンコーダーの両方の機能を統合したモデルアーキテクチャを採用する。
  • すべてのタスクで共通のボキャブラリーとトークン化を適用し、一貫性のある表現学習を可能にする。
  • プレトレーニング目的関数は、自己回帰的言語モデル学習とスパンマスキングを組み合わせ、多様な下流タスクをサポートする。
  • ファインチューニング中に動的シーケンス長と変動長スパン予測をサポートする。

実験結果

リサーチクエスチョン

  • RQ11つのプレトレーニングフレームワークが、分類、無条件生成、条件付き生成タスクを効果的に処理できるか。
  • RQ2統一された生成ベースのアプローチは、BERTに類似したモデルと比較して、プレトレイン・ファインチューニングの一貫性を向上させるか。
  • RQ3タスク固有のアーキテクチャ変更なしに、モデルがタスク間で一般化できるか。
  • RQ4従来のアーキテクチャと比較して、変動長の穴埋めタスクでのモデルのパフォーマンスはいかがなものか。

主な発見

  • GLMは、同じプレトレーニングデータ量を用いた場合に、SuperGLUEベンチマークでBERTを上回る性能を示した。
  • BERT-Largeの1.25倍のパラメータ数を有するGLMは、すべてのNLUタスク、条件付き生成、無条件生成タスクで最先端のパフォーマンスを達成した。
  • プレトレイン・ファインチューニングの一貫性が向上し、BERTに類似したモデルよりも分類タスクで優れた性能を発揮した。
  • GLMは変動長の穴埋めを自然に処理でき、クローズ形式の質問応答などのタスクにとって不可欠な能力を備えている。
  • 統一されたフレームワークにより、複数の専用アーキテクチャの必要性が排除され、モデル開発とデプロイメントが簡素化された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。