QUICK REVIEW

[论文解读] Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

Akari Asai, Kazuma Hashimoto|arXiv (Cornell University)|Nov 24, 2019

Topic Modeling参考文献 37被引用 146

一句话总结

引入一个基于图的递归检索器，该检索器学习在Wikipedia段落图上检索多跳推理路径，并与阅读器配对以回答问题；在HotpotQA全百科上达到最先进水平并在SQuAD Open和Natural Questions Open上取得强劲结果。

ABSTRACT

Answering questions that require multi-hop reasoning at web-scale necessitates retrieving multiple evidence documents, one of which often has little lexical or semantic relationship to the question. This paper introduces a new graph-based recurrent retrieval approach that learns to retrieve reasoning paths over the Wikipedia graph to answer multi-hop open-domain questions. Our retriever model trains a recurrent neural network that learns to sequentially retrieve evidence paragraphs in the reasoning path by conditioning on the previously retrieved documents. Our reader model ranks the reasoning paths and extracts the answer span included in the best reasoning path. Experimental results show state-of-the-art results in three open-domain QA datasets, showcasing the effectiveness and robustness of our method. Notably, our method achieves significant improvement in HotpotQA, outperforming the previous best model by more than 14 points.

研究动机与目标

推动需要对海量文本进行多跳推理的开放域问答。
开发一个学习在Wikipedia段落图中导航以组装推理路径的检索器。
将检索器与阅读器结合，以对路径进行排序并从最佳路径提取答案。
通过数据增强和对检索器和阅读器的负样本采样提高鲁棒性。
在多个问答数据集上展示强性能和可解释性。

提出的方法

使用超链接和同一篇文章内链接作为有向边，构建一个Wikipedia段落图。
将段落表示为节点，训练一个基于RNN的检索器，基于先前选择条件逐步选择段落。
使用暴力搜索（beam search）来探索推理路径，并以TF-IDF检索器初始化候选路径。
通过带有监督的真实路径以及增强路径和负样本来优化检索损失进行训练。
扩展基于BERT的阅读器，使用多任务学习同时执行答案段落提取和推理路径排序。
在推理阶段，将前 Top 的推理路径传递给阅读器以选择最佳路径并提取答案段。

实验结果

研究问题

RQ1一个基于图的递归检索器是否能够在一个大型的Wikipedia段落图上有效地学习多跳推理路径？
RQ2将路径感知的检索器与阅读器结合是否能提升开放域多跳任务的问答性能？
RQ3数据增强和负样本对检索器与阅读器的训练鲁棒性和准确性有何影响？
RQ4该方法在HotpotQA、SQuAD Open和Natural Questions Open等数据集上是否具备鲁棒性？
RQ5在该框架中任意步推理与固定步检索的影响是什么？

主要发现

在HotpotQA全百科和干扰设置上达到最先进的结果，相较于此前方法有较大提升。
在SQuAD Open上优于以前的模型，在Natural Questions Open上达到或超过最先进水平。
通过学习在图上的序列化推理路径以及使用基于超链接的负样本进行训练，检索效果得到提升。
检索器与阅读器之间的相互作用至关重要；消融实验显示移除组件时性能显著下降。
自适应的任意步检索优于固定步方法，在有无显式超链接图的情况下模型仍然有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。