QUICK REVIEW
[论文解读] Assessing BERT's Syntactic Abilities
Yoav Goldberg|arXiv (Cornell University)|Jan 16, 2019
Natural Language Processing Techniques参考文献 6被引用 295
一句话总结
本文评估 BERT 的双向注意力架构是否能捕捉英语句法依存关系,方法是将先前的句法测试改编为掩码、双向设置;结果显示较强的句法敏感性,BERT Base 常常优于 BERT Large。
ABSTRACT
I assess the extent to which the recently introduced BERT model captures English syntactic phenomena, using (1) naturally-occurring subject-verb agreement stimuli; (2) "coloreless green ideas" subject-verb agreement stimuli, in which content words in natural sentences are randomly replaced with words sharing the same part-of-speech and inflection; and (3) manually crafted stimuli for subject-verb agreement and reflexive anaphora phenomena. The BERT model performs remarkably well on all cases.
研究动机与目标
- 激发研究,探究 BERT 是否能捕捉英语中的对句法敏感的依赖关系。
- 将现有的句法评估刺激改编为适用于 BERT 的双向掩码框架。
- 在标准句法现象上比较 BERT Base 与 BERT Large。
- 讨论仅基于注意力的模型在句法学习中的局限性与影响。
提出的方法
- 将 Linzen 等人(2016)、Gulordava 等人(2018)以及 Marvin & Linzen(2018)的刺激改编为 BERT 的双向设置。
- 对目标动词进行掩码,并对预测的对数概率进行评分以区分正确与错误的屈折形态。
- 使用完整的句子(不包含动词)来评估预测,并比较原始形式与替代形式。
- 在 PyTorch 实现和预训练权重下对 BERT-Base 和 BERT-Large 进行实验。
- 丢弃焦点动词或其屈折形式超出词汇表或不适合分词的刺激;在适当情况下省略某些 NPI 和系动词结构的案例。
实验结果
研究问题
- RQ1在双向掩码设置下,BERT 是否能捕捉英语中的主谓一致及相关句法现象?
- RQ2BERT Base 与 BERT Large 在对句法敏感的任务中的表现有何差异?
- RQ3数据集选择、预训练语料和评估协议对观察到的句法表现有何影响?
- RQ4结果是否能推广到超出自然语言句子、适用于受控或造句刺激的情形?
主要发现
| 吸引子 | BERT Base | BERT Large | 句子数 |
|---|---|---|---|
| 1 | 0.97 | 0.97 | 24031 |
| 2 | 0.97 | 0.97 | 4414 |
| 3 | 0.96 | 0.96 | 946 |
| 4 | 0.97 | 0.96 | 254 |
- BERT 在句法测试用例中表现出高准确性,往往高于先前基于 LSTM 的模型。
- 在许多条件下,BERT-Base 的表现优于 BERT-Large,而非相反。
- 由于双向性、不同的训练数据以及对刺激的筛选,结果与以往工作并非直接可比。
- 研究表明,在合适的评估设置下,像 BERT 这样的纯注意力模型也能捕获层级敏感的句法,甚至比 LSTM 模型更好或相当。
- 存在一些例外(表 3 中的句子补语和简短的 VP 并列),但总体趋势倾向于 BERT 的强句法泛化。
- 研究强调,模型更大并不普遍带来更好的句法表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。