Skip to main content
QUICK REVIEW

[论文解读] Can neural networks acquire a structural bias from raw linguistic data?

Alex Warstadt, Samuel R. Bowman|arXiv (Cornell University)|Jul 14, 2020
Natural Language Processing Techniques参考文献 33被引用 29
一句话总结

本文研究了 BERT——一种在原始语言数据上预训练的神经网络——是否通过自监督学习获得了结构归纳偏置。通过在四个语言现象上采用刺激贫乏实验设计,BERT 在三个领域(主语-助动词倒装、代词回指绑定和嵌套动词时态检测)表现出结构偏置,而在 NPI 限定词许可任务中则偏好线性归纳,提供了强有力的证据,表明仅从原始数据中即可产生结构偏置。

ABSTRACT

We evaluate whether BERT, a widely used neural network for sentence processing, acquires an inductive bias towards forming structural generalizations through pretraining on raw data. We conduct four experiments testing its preference for structural vs. linear generalizations in different structure-dependent phenomena. We find that BERT makes a structural generalization in 3 out of 4 empirical domains---subject-auxiliary inversion, reflexive binding, and verb tense detection in embedded clauses---but makes a linear generalization when tested on NPI licensing. We argue that these results are the strongest evidence so far from artificial learners supporting the proposition that a structural bias can be acquired from raw data. If this conclusion is correct, it is tentative evidence that some linguistic universals can be acquired by learners without innate biases. However, the precise implications for human language acquisition are unclear, as humans learn language from significantly less data than BERT.

研究动机与目标

  • 测试类似 BERT 的神经网络是否能通过在原始语言数据上的无监督预训练发展出结构归纳偏置。
  • 评估这种偏置是否源于原始输入中的统计规律性,而非架构约束或有监督信号。
  • 探究 BERT 在结构依赖性语法现象中是基于层次句法结构还是表层线性模式进行泛化。
  • 为语言普遍性可从数据中习得提供实证证据,挑战人类语言习得中的刺激贫乏假说。

提出的方法

  • 在四个二元分类任务上微调 BERT,这些任务在结构化与线性归纳之间具有歧义。
  • 使用模板和词表生成主语-助动词倒装、代词回指绑定、NPI 限定词许可和嵌套动词时态检测的训练数据与保留测试数据。
  • 采用刺激贫乏设计:在结构规则与线性规则预测相反的数据上进行训练,然后在能明确区分归纳方式的最小对立对上进行测试。
  • 探测 BERT 在保留样本上的预测,以推断其潜在的归纳偏置——结构化或线性。
  • 在主语-助动词倒装任务中控制表层混淆因素(如关系代词与助动词的邻近性)。
  • 将 BERT 的行为与未经无监督预训练的基线模型进行比较,利用先前研究结果作为低预训练设置下游线性偏好的代理。

实验结果

研究问题

  • RQ1在原始数据上预训练后,BERT 在结构依赖性语法现象泛化时是否表现出结构归纳偏置?
  • RQ2神经网络是否能在无显式监督或架构约束的情况下,偏好层次句法归纳?
  • RQ3在哪些语言领域中,BERT 倾向于选择结构化而非线性归纳?在哪些领域中则偏好线性模式?
  • RQ4BERT 观测到的行为由偶然的表层相关性引起而非真正的结构泛化,这种可能性有多大?
  • RQ5这些结果在多大程度上挑战了人类语言习得中刺激贫乏论点?

主要发现

  • BERT 在 4 个实证领域中的 3 个表现出结构归纳偏置:主语-助动词倒装、代词回指绑定和嵌套动词时态检测。
  • 在 NPI 限定词许可任务中,BERT 倾向于线性归纳,表明并非所有结构依赖现象都会以相同方式触发结构偏置。
  • 随机表层归纳在 4 个领域中的 3 个与结构预测一致的概率约为 5%,显著降低了偶然一致的可能性。
  • 未经过无监督预训练的基线模型倾向于偏好线性归纳,表明预训练是获得结构偏置的关键因素。
  • 这些结果提供了迄今为止最全面的证据,表明结构偏置可仅从原始语言数据的自监督学习中产生。
  • 这些发现表明,某些语言普遍性可能可从数据中习得,挑战了语言习得中先天偏置的必要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。