QUICK REVIEW

[论文解读] Weaver: Deep Co-Encoding of Questions and Documents for Machine Reading

Martin Raison, Pierre-Emmanuel Mazaré|arXiv (Cornell University)|Apr 27, 2018

Topic Modeling参考文献 34被引用 18

一句话总结

Weaver 提出了一种用于机器阅读的深度联合编码模型，该模型使用堆叠的编织双向LSTM来联合编码问题和文档，而无需依赖注意力机制。该模型在 SQuAD 上取得了最先进性能（使用 25 篇检索文档时 EM 为 42.3），解决了 17/18 个 bAbI 任务，并通过端到端训练联合学习上下文和问题表征，在开放域问答中显著优于先前方法。

ABSTRACT

This paper aims at improving how machines can answer questions directly from text, with the focus of having models that can answer correctly multiple types of questions and from various types of texts, documents or even from large collections of them. To that end, we introduce the Weaver model that uses a new way to relate a question to a textual context by weaving layers of recurrent networks, with the goal of making as few assumptions as possible as to how the information from both question and context should be combined to form the answer. We show empirically on six datasets that Weaver performs well in multiple conditions. For instance, it produces solid results on the very popular SQuAD dataset (Rajpurkar et al., 2016), solves almost all bAbI tasks (Weston et al., 2015) and greatly outperforms state-of-the-art methods for open domain question answering from text (Chen et al., 2017).

研究动机与目标

开发一种更稳健且通用的机器阅读模型，能够处理多种问题类型和长上下文文档。
通过一种新颖的循环神经网络架构，联合编码问题和上下文，减少对注意力机制的依赖。
在检索不完善、上下文跨度长或碎片化的开放域问答中提升性能。
使模型能够生成上下文中不存在的答案，例如未登录词汇（OOV）词汇。
通过提升阅读器组件在多文档上的准确性，增强端到端流水线系统的性能。

提出的方法

Weaver 使用堆叠的编织双向LSTM架构，同时联合编码问题和文档，学习其表征之间的深层关联。
该模型用分层的联合编码结构替代注意力机制，实现问题和上下文表征的联合学习。
一个受记忆网络启发的答题层，基于联合编码表征执行基于跳跃的推理，以预测答案跨度。
模型在跨度级问答任务上进行端到端训练，损失函数针对精确匹配（EM）和 F1 分数进行优化。
消融实验表明，RNN 基的联合编码是性能提升的主要驱动力，而非卷积或记忆网络等辅助组件。
模型在 CuratedTREC、WebQuestions 和 WikiMovies 等下游数据集上进行微调，以适应新领域。

实验结果

研究问题

RQ1仅基于循环网络的联合编码模型是否能在机器阅读中超越基于注意力的模型？
RQ2在开放域问答中，联合编码模型的性能如何随检索文档数量的增加而变化？
RQ3在 SQuAD 上训练的阅读器模型能否泛化到 bAbI、WikiHop 和 CuratedTREC 等多样化数据集，并超越基线模型？
RQ4移除注意力机制对模型性能的影响有多大？联合编码能否有效补偿？
RQ5模型能否生成上下文中不存在的、非跨度精确匹配的答案，例如文档中未出现的词汇？

主要发现

当使用 25 篇检索的 Wikipedia 文章时，Weaver 在 SQuAD 数据集上达到 42.3 的 EM，比之前报告的最佳性能高出 12 个百分点以上。
该模型解决了 18 个 bAbI 任务中的 17 个，展示了在多种推理技能上的强大泛化能力。
在 WikiHop 数据集上，Weaver 取得了最先进结果，表现出对多跳推理和短片段上下文的鲁棒性。
消融实验表明，若移除编织 RNN 层，F1 分数将降至 33.0，证实联合编码机制是性能提升的主要来源。
在 CuratedTREC 上微调后，EM 比之前最先进方法提升 6.6 个百分点，达到 43.8 的 EM，且微调模型表现优异。
即使检索文档数量增加到 25 篇，该模型仍保持强劲性能，而 DrQA 在 10 篇文档后性能趋于平缓。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。