Skip to main content
QUICK REVIEW

[论文解读] A Systematic Assessment of Syntactic Generalization in Neural Language Models

Jennifer Hu, Jon Gauthier|arXiv (Cornell University)|May 7, 2020
Topic Modeling参考文献 58被引用 26
一句话总结

本文系统评估了神经语言模型在涵盖多种句法现象的34个测试套件中对句法泛化的表现。研究发现,模型架构,尤其是Transformer中的结构化监督和注意力机制,对句法性能的影响远大于训练数据规模,困惑度与句法泛化能力之间几乎没有相关性。

ABSTRACT

While state-of-the-art neural network models continue to achieve lower perplexity scores on language modeling benchmarks, it remains unknown whether optimizing for broad-coverage predictive performance leads to human-like syntactic knowledge. Furthermore, existing work has not provided a clear picture about the model properties required to produce proper syntactic generalizations. We present a systematic evaluation of the syntactic knowledge of neural language models, testing 20 combinations of model types and data sizes on a set of 34 English-language syntactic test suites. We find substantial differences in syntactic generalization performance by model architecture, with sequential models underperforming other architectures. Factorially manipulating model architecture and training dataset size (1M--40M words), we find that variability in syntactic generalization performance is substantially greater by architecture than by dataset size for the corpora tested in our experiments. Our results also reveal a dissociation between perplexity and syntactic generalization performance.

研究动机与目标

  • 评估最先进神经语言模型是否在优化困惑度的同时,仍能习得类人句法泛化能力。
  • 探究模型架构与训练数据规模对句法泛化表现的相对贡献。
  • 考察困惑度与句法泛化之间的分离现象,挑战‘更低困惑度意味着更好句法理解’的假设。
  • 提供一个可扩展、标准化的句法泛化评估框架,基于34个测试套件,控制语言变量。

提出的方法

  • 在来自新闻语料的新语料子集(100万–4200万词符)上,训练了四类神经模型——循环网络、卷积网络、Transformer和n-gram基线模型。
  • 基于心理语言学范式设计了34个句法测试套件,每个套件针对特定句法现象,控制词汇和结构变量。
  • 使用句法泛化(SG)得分衡量性能,要求模型为语法正确的形式分配更高的概率,而非语法错误的形式。
  • 将测试套件按所需底层语言表征分为六类句法回路。
  • 评估了在最多20亿词符数据上预训练的现成模型,以与自建模型进行比较。
  • 采用因子设计,分离架构与数据规模对SG得分的影响。

实验结果

研究问题

  • RQ1提升困惑度是否能带来神经语言模型句法泛化能力的改善?
  • RQ2模型架构与训练数据规模如何共同影响句法泛化表现?
  • RQ3与基于序列的学习相比,训练过程中引入结构化监督在多大程度上能提升句法泛化能力?
  • RQ4不同句法现象类型之间是否存在系统性的句法泛化表现差异?
  • RQ5困惑度与句法泛化能力之间是否存在可靠的关联?

主要发现

  • 困惑度与句法泛化之间存在显著分离:困惑度相近的模型在句法测试中表现可能天壤之别。
  • 模型架构对句法泛化的影响远大于训练数据规模,即使在小数据集上,Transformer也优于RNN。
  • 经过结构化监督的模型,其SG得分可达到仅基于序列学习但训练数据量约100倍的模型水平,凸显了架构归纳偏置的力量。
  • 多个Transformer模型的SG表现可媲美在约200倍更多数据上训练的模型,凸显注意力机制在句法学习中的高效性。
  • 不同架构在各类句法回路中表现出不同的相对优势,表明模型在处理不同句法现象时依赖于不同的底层处理能力。
  • 结果表明,架构设计——尤其是注意力机制和显式结构化监督——比数据规模对习得类人句法泛化更为关键。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。