QUICK REVIEW

[論文レビュー] Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Bonan Min, Hayley Ross|arXiv (Cornell University)|Nov 1, 2021

Topic Modeling参考文献 182被引用数 161

ひとこと要約

大規模事前学習済み言語モデル（PLMs）が、事前学習/微調整、プロンプティング、テキスト生成を通じてNLPを可能にする方法の包括的な調査、データ生成による拡張と今後の方向性を含む。

ABSTRACT

Large, pre-trained transformer-based language models such as BERT have drastically changed the Natural Language Processing (NLP) field. We present a survey of recent work that uses these large language models to solve NLP tasks via pre-training then fine-tuning, prompting, or text generation approaches. We also present approaches that use pre-trained language models to generate data for training augmentation or other purposes. We conclude with discussions on limitations and suggested directions for future research.

研究の動機と目的

NLPで大規模な事前学習済みトランスフォーマーモデルへ移行した理由と、3つの主要パラダイム（事前学習→微調整、プロンプトベースの学習、NLPをテキスト生成として扱う）を説明する。
構文解析、情報抽出、質問応答、テキスト含意推論、感情分析といったタスクにおいて、PLMsがどのように利用されるかを要約する。
データ生成アプローチとその制限を論じ、今後の研究方向を概説する。

提案手法

事前学習→微調整、プロンプティング、テキスト生成の3つのPLMベースのパラダイムを説明し、データ生成の補完を加える。
自己回帰型、マスク化言語モデル、エンコーダ-デコーダなどのモデルクラスと典型的な事前学習目的を詳述する。
微調整戦略は、全モデル調整からアダプターやパラメータ効率的な手法まで多岐にわたり、忘却を緩和し訓練コストを削減する。
データソース、スケール効果、ドメイン固有の事前学習について論じる。
Few-shot学習やタスク探査の利点のためのプロンプト設計手法をレビューする。

Figure 1: Three types of pre-trained language models. Model architecture illustrations are from Lewis et al. ( 2020 ) . For the encoder-decoder model, the corruption strategy of document rotation is shown. Alternatives include sentence permutation, text infilling, token deletion/masking, etc.

実験結果

リサーチクエスチョン

RQ1NLPタスクを解決する際の主要なPLMベースのパラダイムは何で、それらはアプローチと最適化の点でどのように異なるか？
RQ2モデルアーキテクチャ、事前学習データ、微調整戦略はNLPタスク全体の性能にどのように影響するか？
RQ3Few-shot学習とタスク整合性のためにPLMsを活用する際、プロンプト設計はどのような役割を果たすか？
RQ4PLMsを用いてデータを生成したりNLPタスクの訓練を補完するにはどうすればよいか、そして制限は何か？
RQ5NLPにおけるPLMsの現在の限界と今後の方向性は何か？

主な発見

PLMsは、3つの主要なパラダイム（事前学習→微調整、プロンプトベースの学習、テキスト生成としてのNLP）を通じて、多様なNLPタスクで最先端の性能を実現する。
自己回帰型、マスク化型、エンコーダ-デコーダ型のPLMsは、学習目的とタスクの種類に対する適性が異なる。
微調整戦略は、全モデル調整からアダプターやパラメータ効率的な手法まで多岐にわたり、忘却を緩和し訓練コストを削減する。
データの規模と品質は利得に大きく影響し、モデルサイズとデータセットサイズが性能向上を左右することが多い。データクリーンアップは不可欠。
プロンプトはfew-shot学習と事前学習目的へのより良い整合性を可能にし、指示駆動型またはデモンストレーションベースのプロンプトは、重い微調整なしでタスク性能を向上させる。
PLMsによるデータ生成は、ターゲットタスクを支援する銀データや補助コンテキストを作成する補完的手法である。
限界にはドメイン不一致、スケーラビリティ、訓練データバイアスを反映する潜在的な不正確さが含まれる。今後の方向性には、効率性、適応性、頑健性の改善が含まれる。

Figure 2: Typical “pre-train then fine-tune” strategies. We illustrate strategies that fine-tune the full PLM (left), fine-tune the full PLM in a custom model (center), and fine-tune just a small adapter sub-layer per each Transformer layer (right). We show the Transformer blocks that will be fine-t

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。