QUICK REVIEW

[論文レビュー] How much pretraining data do language models need to learn syntax?

Laura Pérez-Mayos, Miguel Ballesteros|arXiv (Cornell University)|Sep 7, 2021

Topic Modeling被引用数 4

ひとこと要約

本研究では、100万〜10億語のデータで微調整されたMiniBERTaモデルを用いて、事前学習データサイズがRoBERTaモデルにおける構文的学習に与える影響を調査している。大きなデータ量は構文的符号化と下流タスクのパフォーマンスを向上させるが、その恩恵は段階的であり、高額な費用と環境的コストを伴う。一部の構文的現象では、小さなモデルが大きなモデルを上回ることもある。

ABSTRACT

Transformers-based pretrained language models achieve outstanding results in many well-known NLU benchmarks. However, while pretraining methods are very convenient, they are expensive in terms of time and resources. This calls for a study of the impact of pretraining data size on the knowledge of the models. We explore this impact on the syntactic capabilities of RoBERTa, using models trained on incremental sizes of raw text data. First, we use syntactic structural probes to determine whether models pretrained on more data encode a higher amount of syntactic information. Second, we perform a targeted syntactic evaluation to analyze the impact of pretraining data size on the syntactic generalization performance of the models. Third, we compare the performance of the different models on three downstream applications: part-of-speech tagging, dependency parsing and paraphrase identification. We complement our study with an analysis of the cost-benefit trade-off of training such models. Our experiments show that while models pretrained on more data encode more syntactic knowledge and perform better on downstream applications, they do not always offer a better performance across the different syntactic phenomena and come at a higher financial and environmental cost.

研究の動機と目的

事前学習データサイズの増加がRoBERTaモデルにおける構文的知識習得に与える影響を評価すること。
より大きなモデルが多様な構文的現象にわたってより良い一般化性能を示すかどうかを評価すること。
データスケーリングされたモデルにおける品詞タグ付け、依存解析、類似表現同定の下流タスクでのパフォーマンスを比較すること。
より大きなモデルを訓練する際の財務的および環境的コスト対利益のトレードオフを分析すること。
より高いパーめっぷりっさ（perplexity）が、構文的一般化性能の向上と相関しているかどうかを特定すること。

提案手法

100万〜10億語の増分的なデータサイズで、12個のRoBERTaモデル（MiniBERTa）を訓練した。
HewittとManning（2019b）の構文的構造プローブを用いて、構文的情報の符号化を測定した。
SyntaxGymとHuら（2020）の構文的テストスイートを用いて、6つのテスト回路における構文的一般化を評価した。
品詞タグ付け、依存解析（LAS）、類似表現同定（F1）の3つの下流タスクでモデルを微調整した。
各モデルの計算リソース使用量と事前学習実行回数に基づき、訓練コストとCO2排出量を推定した。
パフォーマンスの向上と比較して、財務的および環境的コストを分析するコスト・ベネフィット分析を実施した。

実験結果

リサーチクエスチョン

RQ1事前学習データサイズの増加により、RoBERTaモデルにおける構文的情報符号化が向上するか？
RQ2より多くのデータで事前学習されたモデルは、多様な構文的現象にわたってより良い一般化性能を示すか？
RQ3下流タスク（品詞タグ付け、依存解析、類似表現同定）におけるパフォーマンス向上は、事前学習データサイズの増加に比例するか？
RQ4より大きなモデルを訓練する際の財務的および環境的コストは何か？そのコストはパフォーマンスの向上によって正当化されるか？
RQ5パーセプトリップリッサ（perplexity）と構文的一般化パフォーマンスの間に相関があるか？

主な発見

HewittとManningの構造プローブによる測定では、より多くのデータで事前学習されたモデルが顕著に多くの構文的情報を符号化していることが判明した。
構文的符号化が高水準であったにもかかわらず、最大のモデル（10億語）は「グロス構文的状態」テスト回路で小さなモデルに劣り、小さなモデルがより高いスコアを達成した。
品詞タグ付け、依存解析、類似表現同定の下流タスクにおけるパフォーマンス向上は段階的であり、10億語モデルは1億語モデルに対して僅か0.5%〜2.02%の向上にとどまった。
10億語モデルの訓練コストは2万ドルに達し、CO2排出量は約6,990ポンドにのぼり、大西洋を渡るフライトの排出量を上回った。
コスト・ベネフィット分析から、より大きなモデルによるパフォーマンス向上は、財務的および環境的コストに比べて著しく不釣り合いであることが明らかになった。
パーセプトリップリッサとSyntaxGymスコアの間に明確な相関は認められず、低いパーセプトリップリッサが必ずしも良い構文的一般化を保証するわけではないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。