Skip to main content
QUICK REVIEW

[论文解读] Compositional Distributional Semantics with Long Short Term Memory

Phong Ba Le, Willem Zuidema|arXiv (Cornell University)|Mar 9, 2015
Topic Modeling参考文献 26被引用 24
一句话总结

本文提出了一种LSTM增强的递归神经网络(LSTM-RNN),通过记忆单元在解析树中存储和检索长距离依赖关系,克服了梯度消失问题。在Stanford情感树库上的实验表明,LSTM-RNN在结合300D GloVe词嵌入时,优于标准RNN,在细粒度和二元情感分类任务上均达到了最先进性能。

ABSTRACT

We are proposing an extension of the recursive neural network that makes use of a variant of the long short-term memory architecture. The extension allows information low in parse trees to be stored in a memory register (the `memory cell') and used much later higher up in the parse tree. This provides a solution to the vanishing gradient problem and allows the network to capture long range dependencies. Experimental results show that our composition outperformed the traditional neural-network composition on the Stanford Sentiment Treebank.

研究动机与目标

  • 解决在深层解析树上反向传播过程中递归神经网络的梯度消失问题。
  • 通过允许来自较低节点的信息在树结构中更高级别被保留和访问,实现长距离依赖建模。
  • 通过将LSTM记忆机制整合到递归神经网络架构中,改进组合分布语义学。
  • 评估所提模型在情感分类任务中的有效性,特别是捕捉句法和语义依赖关系的能力。
  • 探究使用更好的词嵌入和正则化技术(如dropout)是否能进一步提升LSTM-RNN框架的性能。

提出的方法

  • 将递归神经网络(RNN)扩展为长短期记忆(LSTM)架构,以在分层树结构中保持隐藏状态和记忆单元。
  • 采用自底向上的计算方式,其中解析树中的每个内部节点使用其子节点的输入向量和学习得到的权重矩阵来计算其隐藏状态和单元状态。
  • 应用LSTM特有的门控机制(输入门、遗忘门、输出门)来控制信息流动:遗忘门决定保留或丢弃信息,输入门控制新信息的流入,输出门决定输出内容。
  • 在单元状态更新和输出计算中使用tanh激活函数,确保深层树中的梯度流动稳定。
  • 使用通过结构的反向传播和随机梯度下降进行训练,目标函数为负对数似然。
  • 谨慎使用dropout,因为发现其会干扰LSTM记忆机制;取而代之,采用更优的词嵌入(300D GloVe)以提升性能。

实验结果

研究问题

  • RQ1LSTM记忆单元是否能有效缓解在深层句法解析树上训练的递归神经网络中的梯度消失问题?
  • RQ2LSTM-RNN模型在组合语义学中,能在多大程度上从叶节点到根节点保留并利用长距离依赖关系?
  • RQ3LSTM-RNN在情感分类任务上的性能与标准RNN及其他最先进模型(如DRNN、CNN和DCNN)相比如何?
  • RQ4使用高维预训练词嵌入(如300D GloVe)是否显著提升LSTM-RNN模型的性能?
  • RQ5正则化技术如dropout能否在不破坏记忆单元动态机制的前提下有效应用于LSTM-RNN?

主要发现

  • 当使用300D GloVe词嵌入时,LSTM-RNN在细粒度情感分类任务上的测试准确率为49.9%,在二元任务上为88.0%。
  • 在使用300D GloVe嵌入时,LSTM-RNN在细粒度和二元情感任务上均优于所有其他测试模型,包括DRNN、CNN、DCNN、PV和RNTN。
  • 当使用100D GloVe嵌入时,模型性能低于DRNN和CNN,表明词嵌入维度对性能有显著影响。
  • 在LSTM-RNN中,dropout未能提升训练性能,可能是因为干扰了记忆单元机制。
  • 使用300D GloVe嵌入的LSTM-RNN在性能上匹配或超越了DRNN和CNN,表明记忆机制能够有效实现长距离依赖建模。
  • 结果表明,LSTM-RNN可视为一种有损压缩器,保留全局语义信息同时过滤噪声,这或许能解释其为何优于标准RNN。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。