QUICK REVIEW

[論文レビュー] A Systematic Assessment of Syntactic Generalization in Neural Language Models

Jennifer Hu, Jon Gauthier|arXiv (Cornell University)|May 7, 2020

Topic Modeling参考文献 58被引用数 26

ひとこと要約

本論文は、多様な句法学的現象をカバーする34のテストスイートを用いて、ニューラル言語モデルにおける構文一般化の体系的評価を実施している。モデルアーキテクチャ、特にトランスフォーマーにおける構造的監督とアテンション機構が、訓練データサイズよりも構文性能にはるかに大きな影響を与えることが判明した。また、パーキュリティ（perplexity）は構文一般化能力とほとんど相関がなかった。

ABSTRACT

While state-of-the-art neural network models continue to achieve lower perplexity scores on language modeling benchmarks, it remains unknown whether optimizing for broad-coverage predictive performance leads to human-like syntactic knowledge. Furthermore, existing work has not provided a clear picture about the model properties required to produce proper syntactic generalizations. We present a systematic evaluation of the syntactic knowledge of neural language models, testing 20 combinations of model types and data sizes on a set of 34 English-language syntactic test suites. We find substantial differences in syntactic generalization performance by model architecture, with sequential models underperforming other architectures. Factorially manipulating model architecture and training dataset size (1M--40M words), we find that variability in syntactic generalization performance is substantially greater by architecture than by dataset size for the corpora tested in our experiments. Our results also reveal a dissociation between perplexity and syntactic generalization performance.

研究の動機と目的

最先端のニューラル言語モデルがパーキュリティ最適化の下で人間のような構文一般化を学習しているかどうかを評価すること。
モデルアーキテクチャと訓練データサイズが構文一般化性能に与える相対的寄与を調査すること。
パーキュリティと構文一般化の乖離を検討し、低いパーキュリティがより良い構文理解を意味すると仮定する考えを疑うこと。
制御された言語的変数を備えた34のテストスイートを用いた、スケーラブルで標準化された構文一般化評価フレームワークの提供。

提案手法

新しいニューズリーダー語彙から抽出した4つのデータサブセット（100万～4200万トークン）を用いて、再帰的、畳み込み型、トランスフォーマー、およびn-gramベースラインの4つのニューラルモデルクラスを訓練した。
心理言語学的パラダイムに基づき、各テストスイートが特定の構文現象を制御された語彙的・構造的変数を用いてテストする34の構文テストスイートを設計した。
構文一般化（SG）スコアを測定し、モデルが文法的に正しい形に高い確率を割り当てるかどうかを評価した。
高スコアを達成するために必要な言語的表象に基づき、テストスイートを6つの構文回路にグループ化した。
最大20億トークンのデータで事前学習された市販モデルを、自社で訓練したモデルと比較評価した。
因子実験デザインを用いて、アーキテクチャとデータサイズがSGスコアに与える影響を分離した。

実験結果

リサーチクエスチョン

RQ1パーキュリティの向上は、ニューラル言語モデルにおける構文一般化の向上をもたらすか？
RQ2モデルアーキテクチャと訓練データサイズが、構文一般化性能にどのように共同で影響を与えるか？
RQ3逐次学習と比較して、訓練中の構造的監督が構文一般化にどれほど効果を発揮するか？
RQ4異なる種類の構文現象において、構文一般化性能に体系的な差異が生じるか？
RQ5パーキュリティと構文一般化能力の間に信頼できる相関関係があるか？

主な発見

パーキュリティと構文一般化の間には顕著な乖離が存在する：類似したパーキュリティスコアを示すモデルでも、構文テストでのパフォーマンスに顕著な差が生じる。
モデルアーキテクチャが訓練データサイズよりも構文一般化にはるかに大きな影響を与える。トランスフォーマーは、RNNですらも、小さなデータセットでも上回る性能を示した。
構造的監督が施されたモデルは、純粋に逐次学習されたモデルが約100倍のデータで学習した場合と同等のSGスコアを達成した。これは、アーキテクチャに内蔵されたインダクティブバイアスの強力さを示している。
いくつかのトランスフォーマー・モデルは、約200倍のデータで学習したモデルと同等のSGパフォーマンスを達成した。これは、アテンション機構が構文学習に非常に効率的であることを示している。
異なるアーキテクチャは、構文回路ごとに異なる相対的強みを示しており、異なる構文現象に対してモデルが異なる内部処理能力に依存していることが示唆された。
結果から、特にアテンション機構と明示的な構造的監督が、人間のような構文一般化を獲得する上で、データスケールよりもはるかに重要であることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。