QUICK REVIEW

[论文解读] A Systematic Assessment of Syntactic Generalization in Neural Language Models

Jennifer Hu, Jon Gauthier|arXiv (Cornell University)|May 7, 2020

Topic Modeling参考文献 58被引用 26

一句话总结

本文系统评估了神经语言模型在涵盖多种句法现象的34个测试套件中对句法泛化的表现。研究发现，模型架构，尤其是Transformer中的结构化监督和注意力机制，对句法性能的影响远大于训练数据规模，困惑度与句法泛化能力之间几乎没有相关性。

ABSTRACT

While state-of-the-art neural network models continue to achieve lower perplexity scores on language modeling benchmarks, it remains unknown whether optimizing for broad-coverage predictive performance leads to human-like syntactic knowledge. Furthermore, existing work has not provided a clear picture about the model properties required to produce proper syntactic generalizations. We present a systematic evaluation of the syntactic knowledge of neural language models, testing 20 combinations of model types and data sizes on a set of 34 English-language syntactic test suites. We find substantial differences in syntactic generalization performance by model architecture, with sequential models underperforming other architectures. Factorially manipulating model architecture and training dataset size (1M--40M words), we find that variability in syntactic generalization performance is substantially greater by architecture than by dataset size for the corpora tested in our experiments. Our results also reveal a dissociation between perplexity and syntactic generalization performance.

研究动机与目标

评估最先进神经语言模型是否在优化困惑度的同时，仍能习得类人句法泛化能力。
探究模型架构与训练数据规模对句法泛化表现的相对贡献。
考察困惑度与句法泛化之间的分离现象，挑战‘更低困惑度意味着更好句法理解’的假设。
提供一个可扩展、标准化的句法泛化评估框架，基于34个测试套件，控制语言变量。

提出的方法

在来自新闻语料的新语料子集（100万–4200万词符）上，训练了四类神经模型——循环网络、卷积网络、Transformer和n-gram基线模型。
基于心理语言学范式设计了34个句法测试套件，每个套件针对特定句法现象，控制词汇和结构变量。
使用句法泛化（SG）得分衡量性能，要求模型为语法正确的形式分配更高的概率，而非语法错误的形式。
将测试套件按所需底层语言表征分为六类句法回路。
评估了在最多20亿词符数据上预训练的现成模型，以与自建模型进行比较。
采用因子设计，分离架构与数据规模对SG得分的影响。

实验结果

研究问题

RQ1提升困惑度是否能带来神经语言模型句法泛化能力的改善？
RQ2模型架构与训练数据规模如何共同影响句法泛化表现？
RQ3与基于序列的学习相比，训练过程中引入结构化监督在多大程度上能提升句法泛化能力？
RQ4不同句法现象类型之间是否存在系统性的句法泛化表现差异？
RQ5困惑度与句法泛化能力之间是否存在可靠的关联？

主要发现

困惑度与句法泛化之间存在显著分离：困惑度相近的模型在句法测试中表现可能天壤之别。
模型架构对句法泛化的影响远大于训练数据规模，即使在小数据集上，Transformer也优于RNN。
经过结构化监督的模型，其SG得分可达到仅基于序列学习但训练数据量约100倍的模型水平，凸显了架构归纳偏置的力量。
多个Transformer模型的SG表现可媲美在约200倍更多数据上训练的模型，凸显注意力机制在句法学习中的高效性。
不同架构在各类句法回路中表现出不同的相对优势，表明模型在处理不同句法现象时依赖于不同的底层处理能力。
结果表明，架构设计——尤其是注意力机制和显式结构化监督——比数据规模对习得类人句法泛化更为关键。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。