[论文解读] Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering
本文提出两种基于证据聚合的答案重新排序器(基于强度和基于覆盖)- 使用多段落来改进开放领域问答,在 Quasar-T、SearchQA 和 TriviaQA 开放领域数据集上取得了最新的成果,并显著提升了 F1。
A popular recent approach to answering open-domain questions is to first search for question-related passages and then apply reading comprehension models to extract answers. Existing methods usually extract answers from single passages independently. But some questions require a combination of evidence from across different sources to answer correctly. In this paper, we propose two models which make use of multiple passages to generate their answers. Both use an answer-reranking approach which reorders the answer candidates generated by an existing state-of-the-art QA model. We propose two methods, namely, strength-based re-ranking and coverage-based re-ranking, to make use of the aggregated evidence from different passages to better determine the answer. Our models have achieved state-of-the-art results on three public open-domain QA datasets: Quasar-T, SearchQA and the open-domain version of TriviaQA, with about 8 percentage points of improvement over the former two datasets.
研究动机与目标
- 推动开放领域问答使用多段落中的证据,而不仅仅是单一检索到的段落。
- 开发两种跨段落聚合证据的重新排序策略,以更好地选择答案。
- 在三个公开的开放领域问答数据集上展示最先进的性能。
- 分析这两种重新排序器的比较优势,并提供各自擅长情境的见解。
提出的方法
- 使用检索-信息检索(IR)模型为一个问题检索前-N个段落,并使用阅读理解(RC)模型从这些段落中生成候选答案片段。
- 提出一种基于强度的重新排序器,对每个候选答案在各段落中计数证据(出现次数或RC概率之和)。
- 提出一种基于覆盖率的重新排序器,将包含答案的段落拼接成一个伪段落,并对问题应用基于匹配的 LSTM 的蕴含模型。
- 通过 softmax 归一化的加权分数将两种重新排序器结合起来,在不进行额外训练的情况下选择最终答案。
- 使用 Adam 按照神经蕴含风格的架构,在拼接的证据上下文上训练基于覆盖率的重新排序器。
实验结果
研究问题
- RQ1跨多个段落聚合证据能否在开放领域问答中超越单段落 RC 模型?
- RQ2基于强度和基于覆盖的证据聚合策略是否提供互补的重新排序优势?
- RQ3基于聚合的重新排序在开放领域问答数据集上能达到多大程度的最先进水平?
- RQ4在这种设定下,top-K 候选列表与重新排序性能之间的实际权衡是什么?
主要发现
- 完整的重新排序器(结合基于强度和基于覆盖的方法)在 Quasar-T、SearchQA 和 TriviaQA 开放域数据集上实现了最先进的结果。
- 基于覆盖的重新排序在各数据集通常表现良好,且在三份数据集中的两个上常常优于基于强度的重新排序。
- 基于强度的重新排序提供了改进,但在跨数据集方面不如基于覆盖的方法稳定。
- 在 Quasar-T 上,较高的 top-K 候选列表可提升召回并使重新排序获得更大收益,强度方法的最佳配置约为 K=50,覆盖方法的最佳配置约为 K=3–5/10。
- 将重新排序器结合起来的效果往往比任何单一方法更大,在 Quasar-T 和 SearchQA 上相对于先前基线,F1 提升约达到 8 个百分点。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。