QUICK REVIEW

[論文レビュー] NSP-BERT: A Prompt-based Few-Shot Learner Through an Original Pre-training Task--Next Sentence Prediction

Yi Sun, Yu Zheng|arXiv (Cornell University)|Sep 8, 2021

Topic Modeling参考文献 39被引用数 30

ひとこと要約

NSP-BERTはNext Sentence Prediction (NSP)を用いた文レベルのプロンプト型アプローチを導入し、BERTでゼロショットおよび少数ショット学習を可能にし、RoBERTa風コーパスでの事前学習を継続することで改善を示します。

ABSTRACT

Using prompts to utilize language models to perform various downstream tasks, also known as prompt-based learning or prompt-learning, has lately gained significant success in comparison to the pre-train and fine-tune paradigm. Nonetheless, virtually all prompt-based methods are token-level, meaning they all utilize GPT's left-to-right language model or BERT's masked language model to perform cloze-style tasks. In this paper, we attempt to accomplish several NLP tasks in the zero-shot scenario using a BERT original pre-training task abandoned by RoBERTa and other models--Next Sentence Prediction (NSP). Unlike token-level techniques, our sentence-level prompt-based method NSP-BERT does not need to fix the length of the prompt or the position to be predicted, allowing it to handle tasks such as entity linking with ease. Based on the characteristics of NSP-BERT, we offer several quick building templates for various downstream tasks. We suggest a two-stage prompt method for word sense disambiguation tasks in particular. Our strategies for mapping the labels significantly enhance the model's performance on sentence pair tasks. On the FewCLUE benchmark, our NSP-BERT outperforms other zero-shot methods on most of these tasks and comes close to the few-shot methods.

研究の動機と目的

トークンレベルの MLM の代わりに文レベルの事前学習タスク（NSP）を用いたプロンプト学習を動機づける。
多様な NLP タスクで強力なゼロショット性能と競争力のある少数ショット結果を実現する。
RoBERTa風コーパスでの事前学習を継続することが NSP-BERT の性能を高めることを示す。
単一文の分類のために NSP ヘッドを二値クロスエントロピーで活用する NSP-tuning を提案する。
多様なタスク設定に対応するための二つのリーディング/ラベルマッピング戦略（candidates-contrast および samples-contrast）を導入する。

提案手法

素朴な BERT NSP 目的を再検討し、下流タスクのプロンプトベース学習に適応させる。
NSPと整合する文レベルのプロンプトを構築し、固定長のトークンマッピングなしに複数ラベルおよび可変長の出力を可能にする。
ラベルをプロンプトに写像するボーカライザーを用い、ラベルを長い語句や単語にする。
正例と負例を結びつけ、二値クロスエントロピー損失を用いて少数ショット設定におけるゼロショットの利点を維持する NSP-tuning を提案する。
最終予測を導くための二つの回答マッピング戦略を導入する：multi-candidate タスクには candidates-contrast、文ペアタスクには samples-contrast。
RoBERTa風コーパス（BERT_C_B+Mix5）での事前学習を継続することが顕著なゼロショットおよび少数ショットの向上をもたらすことを示す。

実験結果

リサーチクエスチョン

RQ1文レベルの事前学習タスクである NSP が、ゼロショットおよび少数ショットの条件下で効果的なプロンプトベース学習者として機能し得るか？
RQ2結合された exemplars と二値損失を用いた NSP-tuning は、少数ショット設定において MLM ベースのプロンプトとどのように比較されるか？
RQ3NSP-BERT を使用する際の少数ショット性能における事前学習コーパスの選択の影響は何か？
RQ4エンティティリンクやタイプ付けのような可変長のラベル記述を伴うタスクを NSP-BERT は扱えるか？
RQ5異なるタスクタイプにわたってラベルをプロンプトへ写像する実践的な戦略（candidates-contrast、samples-contrast）は何か？

主な発見

NSP-BERT は競争力のあるゼロショット性能を達成し、特に多分野の中国語データセットと英語タスクで顕著である。
少数ショットの設定では、多くのデータセットで PET と同等の性能を示し、NLI 事前学習なしで EFL を上回る。
NSP-tuning with coupled positive/negative instances and binary cross-entropy loss provides robust gains across tasks.
RoBERTa風コーパスでの事前学習を継続することは、ゼロショットと少数ショットの性能を著しく向上させ、時にはプロンプト手法の変更だけを上回る。
二段階プロンプトと二つのマッピング戦略により、可変長のラベル記述を伴うエンティティリンクなどのタスクの処理が可能になる。
NSP-BERT は少数ショット学習でベースラインより収束が速く、モデルサイズを超えて有効であり続ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。