Skip to main content
QUICK REVIEW

[论文解读] Structured Training for Neural Network Transition-Based Parsing

David J. Weiss, Chris Alberti|arXiv (Cornell University)|Jun 19, 2015
Natural Language Processing Techniques参考文献 31被引用 40
一句话总结

本文提出了一种用于神经网络过渡式依存句法分析的结构化感知机训练方法,结合深度神经网络表示、束搜索解码与结构化学习。通过利用三重训练的无标签数据,并在结构化感知机中使用网络所有层的激活值作为特征,该模型在宾州树库上实现了94.26%的无标签依存准确率(UAS)和92.41%的有标签依存准确率(LAS),创下斯坦福依存句法分析的新 SOTA 记录。

ABSTRACT

We present structured perceptron training for neural network transition-based dependency parsing. We learn the neural network representation using a gold corpus augmented by a large number of automatically parsed sentences. Given this fixed network representation, we learn a final layer using the structured perceptron with beam-search decoding. On the Penn Treebank, our parser reaches 94.26% unlabeled and 92.41% labeled attachment accuracy, which to our knowledge is the best accuracy on Stanford Dependencies to date. We also provide in-depth ablative analysis to determine which aspects of our model provide the largest gains in accuracy.

研究动机与目标

  • 通过结合神经网络表示与结构化学习及束搜索,提升依存句法分析的准确率。
  • 通过结构化感知机训练减少贪心过渡式句法分析中的搜索偏差。
  • 通过三重训练利用大规模无标签数据提升模型泛化能力。
  • 通过消融研究为网络结构与训练策略的选择提供实证指导。
  • 在斯坦福依存句法分析任务上建立宾州树库上的新 SOTA 性能。

提出的方法

  • 一个带有隐藏层的前馈神经网络处理局部解析配置,学习词、词性标注和依存关系标签的分布式表示。
  • 解码时不直接使用 softmax 概率,而是将网络所有层的激活值作为结构化感知机模型的特征。
  • 结构化感知机采用异步随机梯度下降(ASGD)进行训练,并通过早期更新来纠正标签偏差。
  • 推理阶段使用束搜索解码,以探索多条解析路径,提升准确率。
  • 通过三重训练扩充无标签数据:将由两个解析器(BerkeleyParser 与其他模型)解析结果一致的句子作为高置信度训练样本。
  • 最终模型结合神经网络的表征能力与结构化学习,以纠正贪心模型的偏差。

实验结果

研究问题

  • RQ1与贪心解码相比,结构化感知机训练是否能显著提升神经网络过渡式解析器的准确率?
  • RQ2在结构化感知机中使用所有隐藏层的激活值是否优于仅使用最后一层或 softmax 概率?
  • RQ3在与神经网络模型结合时,利用无标签数据进行三重训练在多大程度上能提升解析性能?
  • RQ4网络深度等架构选择以及优化方法如何影响解析准确率?
  • RQ5结构化感知机是否能有效重加权 softmax 概率,以纠正贪心模型中的常见误判?

主要发现

  • 与基线贪心模型相比,结构化感知机方法将解析准确率提升了 0.8%,在宾州树库上达到 94.26% 的 UAS 和 92.41% 的 LAS。
  • 在结构化感知机中使用所有隐藏层的激活值取得了最佳性能,表明中间表示共同包含判别性信息。
  • 使用 1000 万个额外词元进行三重训练使准确率提升了近 1.0%,显著优于仅使用 BerkeleyParser 的标准微调方法。
  • 结构化感知机有效重加权了 softmax 概率,纠正了常见混淆模式,例如将 'RIGHT(ccomp)' 错误分类为 'RIGHT(conj)'。
  • 消融研究显示,在反向传播过程中同时将两个隐藏层连接到 softmax 层并未提升贪心模型的性能,表明收益来自结构化学习,而非网络架构的改变。
  • 即使在贪心神经网络模型经过三重训练后,其性能也超过了 BerkeleyParser,表明该方法在低资源场景下具有显著有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。