[論文レビュー] Grammatical Analysis of Pretrained Sentence Encoders with Acceptability Judgments.
この論文は、言語的受容性コーパス(CoLA)の文法的アノテーション付き開発セットで微調整された、事前学習された文埋め込みモデル—OpenAI GPT、BERT、その他のモデル—の構文的知識を評価する。結果として、モデルは副詞修飾のような単純な構文的現象を容易に学習するが、長距離依存関係や語形一致のような複雑な構造では困難を示し、下流タスクで優れた性能を示すにもかかわらず、暗黙の構文的理解が限定的であることが示された。
Recent pretrained sentence encoders achieve state of the art results on language understanding tasks, but does this mean they have implicit knowledge of syntactic structures? We introduce a grammatically annotated development set for the Corpus of Linguistic Acceptability (CoLA; Warstadt et al., 2018), which we use to investigate the grammatical knowledge of three pretrained encoders, including the popular OpenAI Transformer (Radford et al., 2018) and BERT (Devlin et al., 2018). We fine-tune these encoders to do acceptability classification over CoLA and compare the models' performance on the annotated analysis set. Some phenomena, e.g. modification by adjuncts, are easy to learn for all models, while others, e.g. long-distance movement, are learned effectively only by models with strong overall performance, and others still, e.g. morphological agreement, are hardly learned by any model.
研究の動機と目的
- 事前学習された文埋め込みモデルが、自然言語処理タスクで成功を収めているにもかかわらず、構文的構造を暗黙的に学習しているかどうかを評価すること。
- 長距離移動や語形一致のような複雑な構文的現象を、モデルがどの程度学習できるかを調査すること。
- CoLA用の文法的アノテーション付き開発セットを構築・活用し、構文的一般化の体系的評価を可能にすること。
- GPT、BERT、その他の最先端エンコーダーの複数のモデルを、構文的受容性分類タスクで比較すること。
提案手法
- Cor句 of Linguistic Acceptability(CoLA)の文法的アノテーション付きサブセットで、3つの事前学習された文埋め込みモデル—OpenAI GPT、BERT、および第3のモデル—を微調整する。
- アノテーション済み開発セットを用いて、副詞修飾、長距離移動、語形一致などのさまざまな構文的現象におけるモデルのパフォーマンスを評価する。
- 受容性判断のためのバイナリ分類器を訓練する。入力は文、出力は人間によるアノテート済みの受容性スコアである。
- 構文的カテゴリごとにモデルの予測を分析し、どの構造が効果的に学習され、どの構造がそうでないかを特定する。
- モデル間のパフォーマンスを比較し、特に優れた性能とそれ以外のモデルとの間で、構文的一般化の違いを特定する。
- 分類精度の定量的指標を用いて、個別の構文的現象における評価を行い、構文的知識の微細な分析を可能にする。
実験結果
リサーチクエスチョン
- RQ1事前学習された文埋め込みモデルは、副詞修飾や長距離依存関係のような構文的構造をどの程度学習するのか?
- RQ2語形一致という複雑な構文的現象に対して、これらのモデルはどの程度うまく一般化できるのか?
- RQ3どの構文的現象がモデルにとって最も容易に学習可能であり、どの現象が優れた全体的パフォーマンスにもかかわらず依然として困難なままなのか?
- RQ4CoLAで高い全体的パフォーマンスを示すモデルは、多様な構文的構造において、より優れた構文的一般化を示すのか?
主な発見
- CoLAで全体的に優れたパフォーマンスを示すモデルは、複雑な構文的現象である長距離移動を効果的に学習するが、性能が低いモデルはそのような学習に失敗する。
- 副詞修飾はすべてのモデルが容易に学習するため、現在のエンコーダーが単純な構文的構造をうまく捉えていることが示された。
- 語形一致はすべてのモデルでうまく学習されず、このような現象における構文的知識の大きなギャップがあることが示唆された。
- 構文的現象におけるモデル間のパフォーマンス格差は、その全体的パフォーマンスと相関しており、構文的一般化がアーキテクチャ全体に均等に分布しているわけではないことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。