Skip to main content
QUICK REVIEW

[论文解读] Long Short-Term Memory-Networks for Machine Reading

Jianpeng Cheng, Li Dong|arXiv (Cornell University)|Jan 25, 2016
Topic Modeling参考文献 60被引用 191
一句话总结

引入 LSTMN,一种在内部记忆网络和自注意力辅助下的 LSTM,联合记忆并关联标记,从而改善语言模型、情感分析和自然语言推断。

ABSTRACT

In this paper we address the question of how to render sequence-level networks better at handling structured input. We propose a machine reading simulator which processes text incrementally from left to right and performs shallow reasoning with memory and attention. The reader extends the Long Short-Term Memory architecture with a memory network in place of a single memory cell. This enables adaptive memory usage during recurrence with neural attention, offering a way to weakly induce relations among tokens. The system is initially designed to process a single sequence but we also demonstrate how to integrate it with an encoder-decoder architecture. Experiments on language modeling, sentiment analysis, and natural language inference show that our model matches or outperforms the state of the art.

研究动机与目标

  • 开发一个逐步处理文本、能够进行带记忆与注意力的浅层推理的机器阅读模拟器。
  • 通过在递归结构中整合一个记忆网络,解决标准序列模型的记忆压缩和缺乏结构处理的问题。
  • 通过神经注意力在 LSTM 框架内实现自适应的记忆使用与标记之间的关系发现。
  • 在多任务 NLP 任务上实现端到端训练,以达到或超过最先进模型的水平。

提出的方法

  • 用一个记忆网络替换 LSTM 的记忆单元,以存储每个输入标记的上下文表征。
  • 使用注意力机制将当前标记与过去的记忆连接起来,并计算记忆与隐藏状态的自适应摘要。
  • 用自适应记忆内容计算类似 LSTM 的门控,以更新 c_t 和 h_t(方程 7–9)。
  • 可选地堆叠记忆/隐藏层,形成多跳或深度融合变体,用于序列到序列任务(方程 10–16)。
  • 在编码器–解码器设置中整合片内注意力(序列内)和跨序列注意力(序列间),实现浅层和深度融合(方程 11–16)。
  • 在语言建模、情感分析和自然语言推理等任务上实现端到端训练,并与标准 LSTM 与基线模型进行比较。

实验结果

研究问题

  • RQ1一个增强了内部记忆网络和注意力的 LSTM 是否能够更好地捕捉标记之间的关系并处理更长的序列?
  • RQ2在单序列任务如语言建模中,标记记忆的片内注意力是否能改善表征?
  • RQ3LSTMN 架构是否可以与编码-解码模型有效结合,用于翻译或自然语言推理等两序列任务?
  • RQ4LSTMN 的变体(单层 vs 多层、浅层融合 vs 深度融合)是否在标准 NLP 基准上优于传统的 LSTM 变体?

主要发现

模型困惑度
KN5141
RNN129
LSTM115
LSTMN108
sLSTM115
gLSTM107
dLSTM109
LSTMN102
  • 单层 LSTMN 在宾州树库(Penn Treebank)上对比 KN5、RNN 与 LSTM 基线取得更低的困惑度。
  • 三层 LSTMN 在测试的深度结构中取得最佳困惑度(LSTMN 3 的102)。
  • LSTMN 在情感分类任务中优于标准 LSTM 基线,接近最先进结果。
  • 在 SNLI 风格的自然语言推理中,带浅层或深度融合的 LSTMN 变体达到有竞争力的准确率,深度融合在参数对比中达到最先进水平。
  • 注意力可视化显示模型学习到有意义但非方向性的词汇关系,如 sits–at、everyone–is 与 is–watching。
  • 该模型在语言建模、情感分析和自然语言推理等任务上表现出色,验证了内部记忆和片内推理的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。