Skip to main content
QUICK REVIEW

[论文解读] Attentive Memory Networks: Efficient Machine Reading for Conversational Search

Tom Kenter, Maarten de Rijke|arXiv (Cornell University)|Dec 19, 2017
Topic Modeling参考文献 24被引用 40
一句话总结

本文提出了一种高效的端到端可训练机器阅读模型——注意力记忆网络(AMN),用于对话式搜索任务。该模型采用分层输入编码器,在保持最先进性能的同时显著降低计算成本。AMN 在 20 个机器阅读数据集上均表现出色,参数量更少、推理速度更快,因此特别适合实时对话系统。

ABSTRACT

Recent advances in conversational systems have changed the search paradigm. Traditionally, a user poses a query to a search engine that returns an answer based on its index, possibly leveraging external knowledge bases and conditioning the response on earlier interactions in the search session. In a natural conversation, there is an additional source of information to take into account: utterances produced earlier in a conversation can also be referred to and a conversational IR system has to keep track of information conveyed by the user during the conversation, even if it is implicit. We argue that the process of building a representation of the conversation can be framed as a machine reading task, where an automated system is presented with a number of statements about which it should answer questions. The questions should be answered solely by referring to the statements provided, without consulting external knowledge. The time is right for the information retrieval community to embrace this task, both as a stand-alone task and integrated in a broader conversational search setting. In this paper, we focus on machine reading as a stand-alone task and present the Attentive Memory Network (AMN), an end-to-end trainable machine reading algorithm. Its key contribution is in efficiency, achieved by having an hierarchical input encoder, iterating over the input only once. Speed is an important requirement in the setting of conversational search, as gaps between conversational turns have a detrimental effect on naturalness. On 20 datasets commonly used for evaluating machine reading algorithms we show that the AMN achieves performance comparable to the state-of-the-art models, while using considerably fewer computations.

研究动机与目标

  • 解决对话式搜索系统中响应延迟影响自然性的高效实时机器阅读需求。
  • 开发一种记忆网络架构,在计算成本低于现有模型的同时保持高性能。
  • 将对话式搜索建模为一个独立的机器阅读任务,答案必须仅从先前的对话话语中推导得出,不依赖外部知识。
  • 证明简化版的分层编码器设计可在更少的训练步骤和更低的推理成本下实现具有竞争力的结果。
  • 在多样且定义明确的机器阅读基准上评估模型,以确立其泛化能力与效率优势。

提出的方法

  • 提出一种端到端可训练的记忆网络,采用分层输入编码器,分两个阶段处理输入文本:句子级编码与文档级编码。
  • 使用多层注意力机制,使解码器能够选择性地关注编码输入的相关部分,提升注意力效率。
  • 对输入采用单次遍历编码过程,相比多次迭代输入的模型,计算开销更低。
  • 实现一个记忆模块,用于存储和更新输入文本的表示,使模型能够对长上下文进行推理。
  • 使用标准的机器阅读损失函数进行端到端训练,优化答案跨度预测。
  • 以 bAbi 数据集套件作为主要评估框架,利用其多样且定义明确的推理任务。

实验结果

研究问题

  • RQ1具有分层输入编码器的记忆网络是否能在显著降低计算成本的同时,实现机器阅读任务的最先进性能?
  • RQ2与多轮迭代模型相比,AMN 的单次遍历编码策略在推理速度和准确性方面表现如何?
  • RQ3像 AMN 这样简化的架构在多样的机器阅读任务(包括需要多跳推理的任务)中,其泛化能力如何?
  • RQ4与平面编码方法相比,分层编码是否能提升注意力聚焦能力与模型可解释性?
  • RQ5该模型是否能在更少的训练周期内达到最优性能,从而适用于实时对话应用场景?

主要发现

  • AMN 在 20 个多样化的机器阅读数据集上达到与最先进模型相当的性能,包括需要多跳推理的任务。
  • 尽管结构简单,AMN 在 '两重支持事实' 和 '三重支持事实' 等任务上持续优于或匹配更强模型,且计算成本更低。
  • 模型通常在 100 个训练周期内达到最优性能,表现出更快的收敛速度,适用于低延迟场景。
  • 注意力可视化显示,AMN 能够有效聚焦于相关句子,即使在存在干扰项的复杂情况下也能实现注意力恢复。
  • 在 '尺寸推理' 和 '三重支持事实' 数据集上,模型展现出稳健的注意力模式,但在高度模糊或噪声较大的样本上偶有失败。
  • 消融实验表明,分层编码器显著提升了效率与注意力质量,且在减少记忆步数时性能下降极小。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。