QUICK REVIEW

[论文解读] Long Short-Term Memory Over Tree Structures

Xiaodan Zhu, Parinaz Sobhani|arXiv (Cornell University)|Mar 16, 2015

Topic Modeling参考文献 26被引用 68

一句话总结

本文提出S-LSTM，一种长短期记忆（LSTM）的新型扩展，将循环记忆机制推广至树状结构数据，使记忆单元能够通过门控记忆复制机制，从多个子节点及后代节点聚合信息。该模型在情感分析任务中显著优于最先进水平的递归神经网络，通过更好地建模层次结构中的长距离依赖关系，在完整节点标注的斯坦福情感树库上实现了44.1%的准确率。

ABSTRACT

The chain-structured long short-term memory (LSTM) has showed to be effective in a wide range of problems such as speech recognition and machine translation. In this paper, we propose to extend it to tree structures, in which a memory cell can reflect the history memories of multiple child cells or multiple descendant cells in a recursive process. We call the model S-LSTM, which provides a principled way of considering long-distance interaction over hierarchies, e.g., language or image parse structures. We leverage the models for semantic composition to understand the meaning of text, a fundamental problem in natural language understanding, and show that it outperforms a state-of-the-art recursive model by replacing its composition layers with the S-LSTM memory blocks. We also show that utilizing the given structures is helpful in achieving a performance better than that without considering the structures.

研究动机与目标

解决链式结构LSTM在建模自然语言与视觉中常见的层次化、非线性结构时的局限性。
将LSTM架构扩展至树状结构的递归网络，以更好地捕捉句法与语义层次中的长距离依赖关系。
通过实证评估，比较显式结构信息是否在语义组合任务中优于通过线性链隐式学习结构的性能。
证明S-LSTM可通过用可学习的门控记忆块替换其组合层，超越最先进水平的递归神经网络。

提出的方法

提出S-LSTM，一种树状结构的LSTM变体，其中每个节点的记忆单元通过可学习门控机制，聚合来自多个子节点的记忆向量。
对标准LSTM单元方程进行改进，以支持来自子节点的多个输入记忆向量，并为每个子节点分别设置输入门、遗忘门和输出门。
采用自底向上的递归计算方式：对于每个内部节点，隐藏状态和细胞状态基于子节点状态的加权组合计算得出，实现层次化记忆传播。
采用结构反向传播进行端到端训练，梯度在树拓扑结构上进行计算。
将最先进递归神经网络中的张量增强组合层替换为S-LSTM记忆模块，以实现直接对比。
在斯坦福情感树库上评估模型，使用根节点和完整树节点标注进行训练与评估。

实验结果

研究问题

RQ1能否有效将基于LSTM的架构扩展至树状结构数据，以比标准递归神经网络更有效地建模层次依赖关系？
RQ2显式建模树结构是否相比通过线性链隐式学习结构，在语义组合任务中带来性能提升？
RQ3与传统递归网络相比，S-LSTM在深层层次结构中在多大程度上缓解了梯度消失问题？
RQ4S-LSTM在句法树中不同深度与短语长度下的性能表现如何？

主要发现

当使用根节点与叶节点标注时，S-LSTM在斯坦福情感树库上达到44.1%的准确率，优于先前最先进水平的递归模型。
该模型在解析树的深层位置显著提升性能，表明其在建模长句中复杂句法与语义方面具有优越能力。
当未提供结构信息时，即使采用左递归或右递归的S-LSTM变体，准确率也仅分别为40.2%与40.3%（仅使用根标签），表明显式结构对最优性能至关重要。
当仅使用根标签时，S-LSTM与非结构化变体之间的性能差距最为显著，表明在监督信息有限时，结构先验尤为关键。
S-LSTM在树中所有深度与长度层级上均持续优于所有基线模型，证实其在层次表示中建模长程依赖关系的能力。
结果提供了实证证据，表明显式利用解析结构可获得比依赖线性链RNN隐式捕捉结构更优的语义表示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。