Skip to main content
QUICK REVIEW

[论文解读] Assessing BERT's Syntactic Abilities

Yoav Goldberg|arXiv (Cornell University)|Jan 16, 2019
Natural Language Processing Techniques参考文献 6被引用 295
一句话总结

本文评估 BERT 的双向注意力架构是否能捕捉英语句法依存关系,方法是将先前的句法测试改编为掩码、双向设置;结果显示较强的句法敏感性,BERT Base 常常优于 BERT Large。

ABSTRACT

I assess the extent to which the recently introduced BERT model captures English syntactic phenomena, using (1) naturally-occurring subject-verb agreement stimuli; (2) "coloreless green ideas" subject-verb agreement stimuli, in which content words in natural sentences are randomly replaced with words sharing the same part-of-speech and inflection; and (3) manually crafted stimuli for subject-verb agreement and reflexive anaphora phenomena. The BERT model performs remarkably well on all cases.

研究动机与目标

  • 激发研究,探究 BERT 是否能捕捉英语中的对句法敏感的依赖关系。
  • 将现有的句法评估刺激改编为适用于 BERT 的双向掩码框架。
  • 在标准句法现象上比较 BERT Base 与 BERT Large。
  • 讨论仅基于注意力的模型在句法学习中的局限性与影响。

提出的方法

  • 将 Linzen 等人(2016)、Gulordava 等人(2018)以及 Marvin & Linzen(2018)的刺激改编为 BERT 的双向设置。
  • 对目标动词进行掩码,并对预测的对数概率进行评分以区分正确与错误的屈折形态。
  • 使用完整的句子(不包含动词)来评估预测,并比较原始形式与替代形式。
  • 在 PyTorch 实现和预训练权重下对 BERT-Base 和 BERT-Large 进行实验。
  • 丢弃焦点动词或其屈折形式超出词汇表或不适合分词的刺激;在适当情况下省略某些 NPI 和系动词结构的案例。

实验结果

研究问题

  • RQ1在双向掩码设置下,BERT 是否能捕捉英语中的主谓一致及相关句法现象?
  • RQ2BERT Base 与 BERT Large 在对句法敏感的任务中的表现有何差异?
  • RQ3数据集选择、预训练语料和评估协议对观察到的句法表现有何影响?
  • RQ4结果是否能推广到超出自然语言句子、适用于受控或造句刺激的情形?

主要发现

吸引子BERT BaseBERT Large句子数
10.970.9724031
20.970.974414
30.960.96946
40.970.96254
  • BERT 在句法测试用例中表现出高准确性,往往高于先前基于 LSTM 的模型。
  • 在许多条件下,BERT-Base 的表现优于 BERT-Large,而非相反。
  • 由于双向性、不同的训练数据以及对刺激的筛选,结果与以往工作并非直接可比。
  • 研究表明,在合适的评估设置下,像 BERT 这样的纯注意力模型也能捕获层级敏感的句法,甚至比 LSTM 模型更好或相当。
  • 存在一些例外(表 3 中的句子补语和简短的 VP 并列),但总体趋势倾向于 BERT 的强句法泛化。
  • 研究强调,模型更大并不普遍带来更好的句法表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。