[论文解读] MEMEN: Multi-layer Embedding with Memory Networks for Machine Comprehension
MEMEN 引入包括 POS/NER 的多层词嵌入,通过 skip-gram,以及一个具备全向记忆网络的多跳注意力以提升在 SQuAD 和 TriviaQA 上的机器阅读理解。
Machine comprehension(MC) style question answering is a representative problem in natural language processing. Previous methods rarely spend time on the improvement of encoding layer, especially the embedding of syntactic information and name entity of the words, which are very crucial to the quality of encoding. Moreover, existing attention methods represent each query word as a vector or use a single vector to represent the whole query sentence, neither of them can handle the proper weight of the key words in query sentence. In this paper, we introduce a novel neural network architecture called Multi-layer Embedding with Memory Network(MEMEN) for machine reading task. In the encoding layer, we employ classic skip-gram model to the syntactic and semantic information of the words to train a new kind of embedding layer. We also propose a memory network of full-orientation matching of the query and passage to catch more pivotal information. Experiments show that our model has competitive results both from the perspectives of precision and efficiency in Stanford Question Answering Dataset(SQuAD) among all published results and achieves the state-of-the-art results on TriviaQA dataset.
研究动机与目标
- 激发丰富词编码的重要性,包括句法信息和命名实体信息,对机器理解性能的作用。
- 开发一个通过 skip-gram 训练将词、字符、POS 和 NER 信息结合的嵌入层。
- 提出一个具备全向对齐的记忆网络(整合多种注意力风格),以实现更深入的段落-问题交互。
- 使用基于指针网络的边界预测器高效定位答案。
- 展示在 SQuAD 和 TriviaQA 上具有竞争力或最先进的结果,同时提高效率。
提出的方法
- 使用拼接嵌入(词、字符、POS、NER)对上下文和查询进行编码。
- 使用 skip-gram 模型训练 POS 和 NER 嵌入,以捕捉句法/语义关系。
- 在嵌入上应用 BiLSTM 以获得段落和问题的表示。
- 引入一个具备全向匹配的记忆网络,融合整体查询匹配、基于查询的相似性和基于上下文的相似性。
- 堆叠多个记忆跳跃,配合输入门控制信息流以改善收敛。
- 用指针网络预测答案边界,由查询感知表示初始化。
实验结果
研究问题
- RQ1多层句法/语义嵌入能否提升机器理解编码,超越标准的词/字符嵌入?
- RQ2具备全向注意力的记忆网络结合多跳阅读,是否比自匹配或单一注意力机制在 QA 性能和效率方面更好?
- RQ3将 POS/NER skip-gram 嵌入整合对 SQuAD 和 TriviaQA 的结果相比基线有何影响?
- RQ4MEMEN 的跳数对准确率和收敛性的影响是什么?
- RQ5给定 MEMEN 表示,指针网络边界预测器是否能高效定位段落中的答案片段?
主要发现
- 在 SQuAD 上,MEMEN 达到 75.37% 的 exact match 和 82.66% 的 F1,显示出有竞争力的性能。
- MEMEN 在所报告结果中实现 TriviaQA 的最先进结果。
- 消融实验显示 POS 嵌入对性能贡献显著,POS 和 NER 嵌入均有帮助,POS 特别显著。
- 具备三向注意力向量的全向记忆相较单一维度或单一视角注意力有提升。
- 三跳 MEMEN 在准确性与训练效率之间取得平衡;超过 3 跳的跳数可能因过拟合和训练时间增加而降低性能。
- 模型在单个 GPU(Titan X)上高效训练,训练时间合理(例如,3 跳大约 ~5 小时),相比更深的自匹配变体。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。