QUICK REVIEW

[论文解读] Transition-Based Dependency Parsing with Stack Long Short-Term Memory

Chris Dyer, Miguel Ballesteros|Repositori digital de la UPF (Universitat Pompeu Fabra)|May 29, 2015

Natural Language Processing Techniques参考文献 39被引用 526

一句话总结

本文提出了一种新型循环神经网络架构——堆栈LSTM（stack LSTM），该架构支持压栈和出栈操作，用于在基于转换的依存句法分析中建模解析器状态。通过持续维护整个堆栈、缓冲区及动作历史的嵌入表示，该模型捕捉了全局状态信息，在使用端到端反向传播训练的英文和中文依存句法分析基准测试中取得了最先进性能。

ABSTRACT

We propose a technique for learning representations of parser states in transition-based dependency parsers. Our primary innovation is a new control structure for sequence-to-sequence neural networks---the stack LSTM. Like the conventional stack data structures used in transition-based parsing, elements can be pushed to or popped from the top of the stack in constant time, but, in addition, an LSTM maintains a continuous space embedding of the stack contents. This lets us formulate an efficient parsing model that captures three facets of a parser's state: (i) unbounded look-ahead into the buffer of incoming words, (ii) the complete history of actions taken by the parser, and (iii) the complete contents of the stack of partially built tree fragments, including their internal structures. Standard backpropagation techniques are used for training and yield state-of-the-art parsing performance.

研究动机与目标

解决先前基于转换的解析器依赖于对解析器状态的狭窄、局部视图的局限性。
使用统一的神经表示方法，建模完整的解析器状态——包括缓冲区、部分构建的句法结构堆栈以及动作历史。
开发一种可微分且高效的解析模型，尽管对全局状态敏感，仍保持线性时间复杂度。
通过学习句法结构的丰富且组合式的表示，实现最先进水平的依存句法分析准确率。
证明通过堆栈增强的LSTM架构，可以高效实现解析中的全局上下文感知能力。

提出的方法

提出堆栈LSTM，一种支持压栈和出栈操作的LSTM变体，使序列建模能够利用持久且持续更新的堆栈内存。
使用三个独立的堆栈LSTM分别表示输入缓冲区、部分构建的句法结构堆栈以及解析动作的历史。
采用递归神经网络对树片段的表示进行组合，实现对句法结构的组合式建模。
应用标准的时间反向传播进行端到端训练，损失函数在每个解析步骤的预测动作上计算。
集成词嵌入，并在每个时间步学习完整解析器状态的连续向量表示。
通过逐步构建状态表示而无需重新处理整个输入，实现高效且线性时间的解析。

实验结果

研究问题

RQ1一种支持类似堆栈操作的神经网络架构，是否能比仅依赖局部上下文的表示更有效地建模完整的解析器状态？
RQ2捕捉完整的缓冲区、堆栈和动作历史是否能提升基于转换的依存句法分析的准确率？
RQ3一种具有压栈和出栈操作的可微分循环架构，是否能在建模全局依赖的同时保持线性时间复杂度？
RQ4与现有神经网络基于转换的解析器相比，所提出的堆栈LSTM在性能和泛化能力方面表现如何？
RQ5连续堆栈嵌入在多大程度上能提升英文和中文等语言的依存句法分析鲁棒性？

主要发现

所提出的堆栈LSTM模型在英文和中文依存句法分析数据集上均取得了最先进性能。
与仅依赖局部上下文的先前方法相比，该模型更有效地捕捉了长距离依赖和全局状态信息。
使用递归神经网络对树片段进行组合，实现了对部分解析树中句法结构的精确建模。
通过端到端反向传播训练，获得高质量表示，无需人工特征工程。
尽管建模了完整的解析器状态，该架构仍保持线性解析和训练时间复杂度。
该模型表明，堆栈增强的LSTM可作为序列到序列解析任务中强大且可微分的控制结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。