QUICK REVIEW

[论文解读] Long Short-Term Memory-Networks for Machine Reading

Jianpeng Cheng, Li Dong|arXiv (Cornell University)|Jan 25, 2016

Topic Modeling参考文献 60被引用 191

一句话总结

引入 LSTMN，一种在内部记忆网络和自注意力辅助下的 LSTM，联合记忆并关联标记，从而改善语言模型、情感分析和自然语言推断。

ABSTRACT

In this paper we address the question of how to render sequence-level networks better at handling structured input. We propose a machine reading simulator which processes text incrementally from left to right and performs shallow reasoning with memory and attention. The reader extends the Long Short-Term Memory architecture with a memory network in place of a single memory cell. This enables adaptive memory usage during recurrence with neural attention, offering a way to weakly induce relations among tokens. The system is initially designed to process a single sequence but we also demonstrate how to integrate it with an encoder-decoder architecture. Experiments on language modeling, sentiment analysis, and natural language inference show that our model matches or outperforms the state of the art.

研究动机与目标

开发一个逐步处理文本、能够进行带记忆与注意力的浅层推理的机器阅读模拟器。
通过在递归结构中整合一个记忆网络，解决标准序列模型的记忆压缩和缺乏结构处理的问题。
通过神经注意力在 LSTM 框架内实现自适应的记忆使用与标记之间的关系发现。
在多任务 NLP 任务上实现端到端训练，以达到或超过最先进模型的水平。

提出的方法

用一个记忆网络替换 LSTM 的记忆单元，以存储每个输入标记的上下文表征。
使用注意力机制将当前标记与过去的记忆连接起来，并计算记忆与隐藏状态的自适应摘要。
用自适应记忆内容计算类似 LSTM 的门控，以更新 c_t 和 h_t（方程 7–9）。
可选地堆叠记忆/隐藏层，形成多跳或深度融合变体，用于序列到序列任务（方程 10–16）。
在编码器–解码器设置中整合片内注意力（序列内）和跨序列注意力（序列间），实现浅层和深度融合（方程 11–16）。
在语言建模、情感分析和自然语言推理等任务上实现端到端训练，并与标准 LSTM 与基线模型进行比较。

实验结果

研究问题

RQ1一个增强了内部记忆网络和注意力的 LSTM 是否能够更好地捕捉标记之间的关系并处理更长的序列？
RQ2在单序列任务如语言建模中，标记记忆的片内注意力是否能改善表征？
RQ3LSTMN 架构是否可以与编码-解码模型有效结合，用于翻译或自然语言推理等两序列任务？
RQ4LSTMN 的变体（单层 vs 多层、浅层融合 vs 深度融合）是否在标准 NLP 基准上优于传统的 LSTM 变体？

主要发现

模型	困惑度
KN5	141
RNN	129
LSTM	115
LSTMN	108
sLSTM	115
gLSTM	107
dLSTM	109
LSTMN	102

单层 LSTMN 在宾州树库（Penn Treebank）上对比 KN5、RNN 与 LSTM 基线取得更低的困惑度。
三层 LSTMN 在测试的深度结构中取得最佳困惑度（LSTMN 3 的102）。
LSTMN 在情感分类任务中优于标准 LSTM 基线，接近最先进结果。
在 SNLI 风格的自然语言推理中，带浅层或深度融合的 LSTMN 变体达到有竞争力的准确率，深度融合在参数对比中达到最先进水平。
注意力可视化显示模型学习到有意义但非方向性的词汇关系，如 sits–at、everyone–is 与 is–watching。
该模型在语言建模、情感分析和自然语言推理等任务上表现出色，验证了内部记忆和片内推理的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。