Skip to main content
QUICK REVIEW

[论文解读] Neural Probabilistic Model for Non-projective MST Parsing

Xuezhe Ma, Eduard Hovy|arXiv (Cornell University)|Jan 4, 2017
Natural Language Processing Techniques参考文献 53被引用 23
一句话总结

该论文提出了一种用于非投射依存句法分析的神经概率模型,结合双向LSTM-CNN以学习上下文和字符级表示,并采用对数线性结构化预测层。利用基尔霍夫矩阵-树定理,该模型能够高效计算归一化常数和边缘概率,从而实现通过反向传播的端到端训练,并在17个基准语料库中的9个上达到最先进性能,涵盖14种语言。

ABSTRACT

In this paper, we propose a probabilistic parsing model, which defines a proper conditional probability distribution over non-projective dependency trees for a given sentence, using neural representations as inputs. The neural network architecture is based on bi-directional LSTM-CNNs which benefits from both word- and character-level representations automatically, by using combination of bidirectional LSTM and CNN. On top of the neural network, we introduce a probabilistic structured layer, defining a conditional log-linear model over non-projective trees. We evaluate our model on 17 different datasets, across 14 different languages. By exploiting Kirchhoff's Matrix-Tree Theorem (Tutte, 1984), the partition functions and marginals can be computed efficiently, leading to a straight-forward end-to-end model training procedure via back-propagation. Our parser achieves state-of-the-art parsing performance on nine datasets.

研究动机与目标

  • 开发一种神经概率句法分析模型,为非投射依存树定义合适的条件概率分布。
  • 整合双向LSTM-CNN以联合学习词级和字符级表示。
  • 通过基尔霍夫矩阵-树定理实现高效的推理,使负对数似然损失可用于端到端训练。
  • 在多样、低资源和高资源语言上实现最先进性能。
  • 克服先前模型使用基于间隔的目标函数或独立头预测而缺乏结构保证的局限性。

提出的方法

  • 模型采用双向LSTM-CNN架构来编码词和字符级表示,其中CNN处理字符序列,BLSTM捕捉上下文词表示。
  • 双线性得分函数使用学习到的权重矩阵、偏置项和拼接的词表示,计算头词与修饰词之间的边得分。
  • 概率结构化层在所有有效非投射依存树上定义条件对数线性模型,通过基尔霍夫矩阵-树定理计算归一化常数。
  • 模型以负对数似然为损失函数进行训练,梯度通过整个网络反向传播,包括归一化常数的计算过程。
  • 在推理阶段,最大生成树(MST)算法从学习到的得分中解码出最可能的依存树。
  • 该架构支持无需人工特征的端到端训练,能够适应新语言和新领域。

实验结果

研究问题

  • RQ1能否设计一种神经概率模型,联合学习表示并为非投射依存树定义合适的条件概率分布?
  • RQ2结合字符级和上下文词表示在多样化语言上的句法分析准确率有何提升?
  • RQ3通过基尔霍夫矩阵-树定理实现高效归一化常数计算的结构化对数线性模型,能否实现有效的端到端训练?
  • RQ4所提出的模型是否在投射和非投射语料库上均优于现有的神经和非神经句法分析系统?
  • RQ5在低资源语言和词形丰富的语言中,字符级CNN和双向LSTM的引入在多大程度上提升了性能?

主要发现

  • 该模型在17个基准语料库中的9个上达到最先进性能,覆盖14种语言,平均性能显著优于先前系统。
  • 在14种语言的平均表现上,该模型的UAS超过所有已发表的最佳结果,这些结果由不同系统在不同语言上取得。
  • 在14种语言中的13种上,完整模型(含字符级特征)优于+POS模型,表明字符级建模具有显著优势。
  • 在保加利亚语、中文、捷克语、荷兰语、英语、德语、日语和西班牙语8种语言上,该模型在UAS和LAS上均达到最先进水平。
  • 在阿拉伯语、丹麦语、葡萄牙语、斯洛文尼亚语和瑞典语上,该模型在所有对比系统中取得最佳LAS得分。
  • 该模型展现出强大的泛化能力,在词形丰富的语言和低资源语言(如中文和瑞典语)上均表现优异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。