QUICK REVIEW

[論文レビュー] Assessing BERT's Syntactic Abilities

Yoav Goldberg|arXiv (Cornell University)|Jan 16, 2019

Natural Language Processing Techniques参考文献 6被引用数 295

ひとこと要約

本論文は、BERT の双方向・注意機構ベースのアーキテクチャが英語の統語依存を捉えるかを、 prior な統語テストをマスクされた双方向設定に適応して評価する。結果は高い統語感度を示し、基礎モデル(BERT Base)が大型モデル(BERT Large)を上回ることがある。

ABSTRACT

I assess the extent to which the recently introduced BERT model captures English syntactic phenomena, using (1) naturally-occurring subject-verb agreement stimuli; (2) "coloreless green ideas" subject-verb agreement stimuli, in which content words in natural sentences are randomly replaced with words sharing the same part-of-speech and inflection; and (3) manually crafted stimuli for subject-verb agreement and reflexive anaphora phenomena. The BERT model performs remarkably well on all cases.

研究の動機と目的

BERT が英語の統語に敏感な依存関係を捉えるかどうかを調査する動機付け。
既存の統語評価刺激をBERTの双方向設定へ適応させる。
標準的な統語現象に対してBERT BaseとBERT Largeを比較する。
統語学習における純粋なアテンションベースモデルの限界と含意について議論する。

提案手法

Linzen et al. (2016)、Gulordava et al. (2018)、Marvin & Linzen (2018) の刺激をBERTの双方向設定へ適応する。
標的動詞をマスクし、正しい屈折形と誤った屈折形に対する予測ロジットを評価する。
動詞を除く完全な文を用いて予測を評価し、原形と代替形を比較する。
PyTorch実装と事前学習済み重みの下でBERT-BaseとBERT-Largeを実験する。
焦点動詞やその屈折形が語彙外または分節化に適さない刺激は破棄する。適切にNPIおよび連結動詞のケースを除外する。

実験結果

リサーチクエスチョン

RQ1双方向マスキングを用いたBERTは、英語の主語-動詞一致や関連する統語現象を捉えることができるか？
RQ2統語感度の高いタスクにおいてBERT BaseとBERT Largeはどのように比較されるか？
RQ3データセット選択、事前学習コーパス、評価プロトコルが観察される統語的パフォーマンスにどのような影響を与えるか？
RQ4結果は自然発生文を超えて、ノンス刺激を含む刺激に一般化するか？

主な発見

アトラクター	BERT Base	BERT Large	# 文
1	0.97	0.97	24031
2	0.97	0.97	4414
3	0.96	0.96	946
4	0.97	0.96	254

BERTは統語テストのケース全般で高い精度を達成し、しばしば従来のLSTMベースモデルより高い。
多くの条件で、BERT-BaseがBERT-Largeを上回る。
双方向性、異なる学習データ、刺激の破棄のため、結果は先行研究と直接比較できない。
適切な評価設定を前提とすれば、BERTのような純粋なアテンションベースモデルは階層感受性を持つ統語を、LSTMモデルと同等かそれ以上に捉えられることを示唆している。
いくつかの例外がある（Table 3の文補完と短いVP連結において）、しかし全体的な傾向はBERTによる強い統語一般化を支持している。
本研究は、より大きなモデルが必ずしもより良い統語パフォーマンスをもたらすわけではないことを強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。