QUICK REVIEW

[论文解读] Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering

Zhiguo Wang, Patrick Ng|arXiv (Cornell University)|Aug 22, 2019

Topic Modeling参考文献 20被引用 24

一句话总结

本文提出 Multi-passage BERT，一种用于开放域问答的全局归一化 BERT 模型，通过在相同问题的所有段落之间归一化得分，提升了答案选择性能。通过结合滑动窗口段落分割（100 字窗口）、基于 BERT 的段落排序器以及全局归一化，该模型在 OpenSQuAD 上实现了最先进性能，相比所有先前模型在 EM 上提升 21.4%，在 F1 上提升 21.5%。

ABSTRACT

BERT model has been successfully applied to open-domain QA tasks. However, previous work trains BERT by viewing passages corresponding to the same question as independent training instances, which may cause incomparable scores for answers from different passages. To tackle this issue, we propose a multi-passage BERT model to globally normalize answer scores across all passages of the same question, and this change enables our QA model find better answers by utilizing more passages. In addition, we find that splitting articles into passages with the length of 100 words by sliding window improves performance by 4%. By leveraging a passage ranker to select high-quality passages, multi-passage BERT gains additional 2%. Experiments on four standard benchmarks showed that our multi-passage BERT outperforms all state-of-the-art models on all benchmarks. In particular, on the OpenSQuAD dataset, our model gains 21.4% EM and 21.5% $F_1$ over all non-BERT models, and 5.8% EM and 6.5% $F_1$ over BERT-based models.

研究动机与目标

解决基于 BERT 的开放域问答中段落间答案得分不可比的问题，即在训练过程中段落被视为独立个体。
探究开放域问答中段落粒度的最优选择，特别是将长文章分割为较短段落是否能提升性能。
评估段落排序器在基于 BERT 的模型中筛选高质量段落的有效性。
确定在使用 BERT 时，显式的跨句匹配机制是否仍然必要，因为 BERT 本身已能捕捉跨序列注意力。
开发并验证一种全局归一化的多段落 BERT 模型，通过利用同一问题下所有段落的得分，提升答案选择性能。

提出的方法

提出 Multi-passage BERT，对给定问题的所有段落中的答案跨度得分进行全局 softmax 归一化，确保段落间得分可比。
使用 100 字的滑动窗口将长文章分割为段落，以提升粒度并捕获更多与答案跨度预测相关的上下文。
引入基于 BERT 的段落排序器，基于 [CLS] token 表示为每个段落分配单一得分，并使用 softmax 进行全局段落排序。
通过最大化包含正确答案的段落的对数似然来训练段落排序器，使用相同的问答对。
通过结合所有段落的预测结果，使用共享的 BERT 编码器和所有段落跨度得分上的 softmax，对答案得分应用全局归一化。
对段落排序和答案跨度预测使用共享的 BERT 编码器，并通过联合目标微调，以提升端到端性能。

实验结果

研究问题

RQ1对同一问题的多个段落答案得分进行全局归一化，是否能提升开放域问答中模型的稳定性和性能？
RQ2开放域问答的最优段落粒度是什么？具体而言，使用 100 字滑动窗口分割文章是否能提升性能？
RQ3基于 BERT 的段落排序器是否能通过过滤低质量段落来提升性能，即使在使用 BERT 进行答案预测时也有效？
RQ4在使用 BERT 时，显式的跨句匹配机制是否仍然必要，因为 BERT 的多头自注意力机制已能捕捉问题与段落之间的必要交叉注意力？
RQ5全局归一化的多段落 BERT 模型是否能在多个开放域问答基准测试中超越现有最先进模型？

主要发现

在使用超过 10 个段落时，对答案得分进行全局归一化能显著提升模型稳定性和性能，防止得分不可比的问题。
通过滑动窗口将文章分割为 100 字段落，在 OpenSQuAD 基准测试中使性能提升 4%。
利用基于 BERT 的段落排序器在 OpenSQuAD 上带来额外 2% 的性能增益，证明其在过滤低质量段落方面的有效性。
对于基于 BERT 的模型，显式的跨句匹配机制并无益处，因为 BERT 的自注意力机制已能捕捉问题与段落之间的必要交叉注意力。
Multi-passage BERT 在 OpenSQuAD 上相比所有非 BERT 模型提升 21.4% EM 和 21.5% F1，相比所有 BERT 基础模型提升 5.8% EM 和 6.5% F1。
该模型在四个标准基准测试中均达到最先进性能，对非 BERT 和 BERT 基础基线模型均有稳定提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。