QUICK REVIEW

[论文解读] Assessing BERT's Syntactic Abilities

Yoav Goldberg|arXiv (Cornell University)|Jan 16, 2019

Natural Language Processing Techniques参考文献 6被引用 295

一句话总结

本文评估 BERT 的双向注意力架构是否能捕捉英语句法依存关系，方法是将先前的句法测试改编为掩码、双向设置；结果显示较强的句法敏感性，BERT Base 常常优于 BERT Large。

ABSTRACT

I assess the extent to which the recently introduced BERT model captures English syntactic phenomena, using (1) naturally-occurring subject-verb agreement stimuli; (2) "coloreless green ideas" subject-verb agreement stimuli, in which content words in natural sentences are randomly replaced with words sharing the same part-of-speech and inflection; and (3) manually crafted stimuli for subject-verb agreement and reflexive anaphora phenomena. The BERT model performs remarkably well on all cases.

研究动机与目标

激发研究，探究 BERT 是否能捕捉英语中的对句法敏感的依赖关系。
将现有的句法评估刺激改编为适用于 BERT 的双向掩码框架。
在标准句法现象上比较 BERT Base 与 BERT Large。
讨论仅基于注意力的模型在句法学习中的局限性与影响。

提出的方法

将 Linzen 等人（2016）、Gulordava 等人（2018）以及 Marvin & Linzen（2018）的刺激改编为 BERT 的双向设置。
对目标动词进行掩码，并对预测的对数概率进行评分以区分正确与错误的屈折形态。
使用完整的句子（不包含动词）来评估预测，并比较原始形式与替代形式。
在 PyTorch 实现和预训练权重下对 BERT-Base 和 BERT-Large 进行实验。
丢弃焦点动词或其屈折形式超出词汇表或不适合分词的刺激；在适当情况下省略某些 NPI 和系动词结构的案例。

实验结果

研究问题

RQ1在双向掩码设置下，BERT 是否能捕捉英语中的主谓一致及相关句法现象？
RQ2BERT Base 与 BERT Large 在对句法敏感的任务中的表现有何差异？
RQ3数据集选择、预训练语料和评估协议对观察到的句法表现有何影响？
RQ4结果是否能推广到超出自然语言句子、适用于受控或造句刺激的情形？

主要发现

吸引子	BERT Base	BERT Large	句子数
1	0.97	0.97	24031
2	0.97	0.97	4414
3	0.96	0.96	946
4	0.97	0.96	254

BERT 在句法测试用例中表现出高准确性，往往高于先前基于 LSTM 的模型。
在许多条件下，BERT-Base 的表现优于 BERT-Large，而非相反。
由于双向性、不同的训练数据以及对刺激的筛选，结果与以往工作并非直接可比。
研究表明，在合适的评估设置下，像 BERT 这样的纯注意力模型也能捕获层级敏感的句法，甚至比 LSTM 模型更好或相当。
存在一些例外（表 3 中的句子补语和简短的 VP 并列），但总体趋势倾向于 BERT 的强句法泛化。
研究强调，模型更大并不普遍带来更好的句法表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。