QUICK REVIEW

[论文解读] Grammatical Analysis of Pretrained Sentence Encoders with Acceptability Judgments.

Alex Warstadt, Samuel R. Bowman|arXiv (Cornell University)|Jan 11, 2019

Natural Language Processing Techniques参考文献 29被引用 22

一句话总结

本文通过在《语用语法可接受性语料库》（CoLA）的语法标注开发集上微调，评估了预训练句子编码器（如OpenAI GPT、BERT等）的句法知识。结果表明，尽管模型能轻松学习诸如状语修饰等简单句法现象，但在处理长距离依存关系和形态一致等复杂结构时表现不佳，表明尽管在下游任务中表现优异，其隐含的句法理解能力仍有限。

ABSTRACT

Recent pretrained sentence encoders achieve state of the art results on language understanding tasks, but does this mean they have implicit knowledge of syntactic structures? We introduce a grammatically annotated development set for the Corpus of Linguistic Acceptability (CoLA; Warstadt et al., 2018), which we use to investigate the grammatical knowledge of three pretrained encoders, including the popular OpenAI Transformer (Radford et al., 2018) and BERT (Devlin et al., 2018). We fine-tune these encoders to do acceptability classification over CoLA and compare the models' performance on the annotated analysis set. Some phenomena, e.g. modification by adjuncts, are easy to learn for all models, while others, e.g. long-distance movement, are learned effectively only by models with strong overall performance, and others still, e.g. morphological agreement, are hardly learned by any model.

研究动机与目标

评估预训练句子编码器是否在NLP任务表现优异的同时，隐式学习了句法结构。
探究模型在多大程度上能够学习长距离移位和形态一致等复杂句法现象。
开发并利用CoLA的语法标注开发集，以实现对句法泛化能力的系统性评估。
比较多种最先进编码器（GPT、BERT等）在句法可接受性分类任务上的表现。

提出的方法

在《语用语法可接受性语料库》（CoLA）的语法标注子集上微调三种预训练句子编码器——OpenAI GPT、BERT和第三种模型。
使用标注的开发集评估模型在各类句法现象（包括状语修饰、长距离移位和形态一致）上的表现。
训练一个二分类器进行可接受性判断，其中输入为句子，输出为人工标注的可接受性评分。
分析模型在不同句法类别上的预测结果，以确定哪些结构被有效学习，哪些未被掌握。
比较不同模型的表现，以识别句法泛化能力的差异，特别是高性能与低性能模型之间的区别。
使用定量指标评估各类句法现象的分类准确率，实现对句法知识的细粒度分析。

实验结果

研究问题

RQ1预训练句子编码器在多大程度上学习了诸如状语修饰和长距离依存关系等句法结构？
RQ2这些模型在形态一致这一复杂句法现象上的泛化能力如何？
RQ3哪些句法现象最容易被模型学习，而哪些即使在整体表现良好时仍具挑战性？
RQ4在CoLA上整体表现更高的模型是否在多样化的句法结构上也展现出更好的句法泛化能力？

主要发现

在CoLA上整体表现优异的模型能有效学习长距离移位这一复杂句法现象，而表现较弱的模型则无法做到。
所有模型均能轻松学习状语修饰，表明当前编码器能很好地捕捉较简单的句法结构。
所有模型对形态一致的掌握均不理想，表明其在该类现象上的句法知识存在显著缺口。
模型在句法现象上的表现差距与其整体性能相关，表明句法泛化能力在不同架构间并非均匀分布。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。