[论文解读] A Systematic Assessment of Syntactic Generalization in Neural Language Models
本文系统评估了神经语言模型在涵盖多种句法现象的34个测试套件中对句法泛化的表现。研究发现,模型架构,尤其是Transformer中的结构化监督和注意力机制,对句法性能的影响远大于训练数据规模,困惑度与句法泛化能力之间几乎没有相关性。
While state-of-the-art neural network models continue to achieve lower perplexity scores on language modeling benchmarks, it remains unknown whether optimizing for broad-coverage predictive performance leads to human-like syntactic knowledge. Furthermore, existing work has not provided a clear picture about the model properties required to produce proper syntactic generalizations. We present a systematic evaluation of the syntactic knowledge of neural language models, testing 20 combinations of model types and data sizes on a set of 34 English-language syntactic test suites. We find substantial differences in syntactic generalization performance by model architecture, with sequential models underperforming other architectures. Factorially manipulating model architecture and training dataset size (1M--40M words), we find that variability in syntactic generalization performance is substantially greater by architecture than by dataset size for the corpora tested in our experiments. Our results also reveal a dissociation between perplexity and syntactic generalization performance.
研究动机与目标
- 评估最先进神经语言模型是否在优化困惑度的同时,仍能习得类人句法泛化能力。
- 探究模型架构与训练数据规模对句法泛化表现的相对贡献。
- 考察困惑度与句法泛化之间的分离现象,挑战‘更低困惑度意味着更好句法理解’的假设。
- 提供一个可扩展、标准化的句法泛化评估框架,基于34个测试套件,控制语言变量。
提出的方法
- 在来自新闻语料的新语料子集(100万–4200万词符)上,训练了四类神经模型——循环网络、卷积网络、Transformer和n-gram基线模型。
- 基于心理语言学范式设计了34个句法测试套件,每个套件针对特定句法现象,控制词汇和结构变量。
- 使用句法泛化(SG)得分衡量性能,要求模型为语法正确的形式分配更高的概率,而非语法错误的形式。
- 将测试套件按所需底层语言表征分为六类句法回路。
- 评估了在最多20亿词符数据上预训练的现成模型,以与自建模型进行比较。
- 采用因子设计,分离架构与数据规模对SG得分的影响。
实验结果
研究问题
- RQ1提升困惑度是否能带来神经语言模型句法泛化能力的改善?
- RQ2模型架构与训练数据规模如何共同影响句法泛化表现?
- RQ3与基于序列的学习相比,训练过程中引入结构化监督在多大程度上能提升句法泛化能力?
- RQ4不同句法现象类型之间是否存在系统性的句法泛化表现差异?
- RQ5困惑度与句法泛化能力之间是否存在可靠的关联?
主要发现
- 困惑度与句法泛化之间存在显著分离:困惑度相近的模型在句法测试中表现可能天壤之别。
- 模型架构对句法泛化的影响远大于训练数据规模,即使在小数据集上,Transformer也优于RNN。
- 经过结构化监督的模型,其SG得分可达到仅基于序列学习但训练数据量约100倍的模型水平,凸显了架构归纳偏置的力量。
- 多个Transformer模型的SG表现可媲美在约200倍更多数据上训练的模型,凸显注意力机制在句法学习中的高效性。
- 不同架构在各类句法回路中表现出不同的相对优势,表明模型在处理不同句法现象时依赖于不同的底层处理能力。
- 结果表明,架构设计——尤其是注意力机制和显式结构化监督——比数据规模对习得类人句法泛化更为关键。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。