QUICK REVIEW

[论文解读] Passage Re-ranking with BERT

Rodrigo Nogueira, Kyunghyun Cho|arXiv (Cornell University)|Jan 13, 2019

Topic Modeling参考文献 20被引用 346

一句话总结

作者将 BERT 重新用于基于查询的检索中的段落重排序，并通过在 BM25 候选结果之上对 BERT-LARGE 进行微调，在 MS MARCO 和 TREC-CAR 上取得了最先进的结果。

ABSTRACT

Recently, neural models pretrained on a language modeling task, such as ELMo (Peters et al., 2017), OpenAI GPT (Radford et al., 2018), and BERT (Devlin et al., 2018), have achieved impressive results on various natural language processing tasks such as question-answering and natural language inference. In this paper, we describe a simple re-implementation of BERT for query-based passage re-ranking. Our system is the state of the art on the TREC-CAR dataset and the top entry in the leaderboard of the MS MARCO passage retrieval task, outperforming the previous state of the art by 27% (relative) in MRR@10. The code to reproduce our results is available at https://github.com/nyu-dl/dl4marco-bert

研究动机与目标

利用 BERT 重新排序给定查询的候选段落。
在 MS MARCO 和 TREC-CAR 上展示相较于先前的神经模型和传统 IR 方法的显著性能提升。
展示用简单的叉熵目标对预训练的 BERT 模型进行微调即可为段落得到高相关性分数。

提出的方法

将查询视为句子 A，将段落视为句子 B，并将它们输入到 BERT-LARGE 二元分类器。
将查询截断至最多 64 个标记，合并的 [CLS]、query、passage 和 separator 标记截断至 512 个标记。
在 BM25 顶部 1000 个候选对的带标签查询-段落对上，使用交叉熵损失对预训练的 BERT-LARGE 进行微调。
对每个候选独立计算段落相关性概率，并按这些概率排序。
在 MS MARCO 和 TREC-CAR 上使用 TPU v3-8 以及 Adam 优化器，进行学习率预热和衰减的训练。
证明在只有数据的一小部分时也能实现比以往 SOTA 更强的性能。

Figure 1: Number of MS MARCO examples seen during training vs. MRR@10 performance.

实验结果

研究问题

RQ1将 BERT-LARGE 作为二元相关性分类器进行微调，能否有效地对开域问答数据集进行段落再排序？
RQ2在 MS MARCO 和 TREC-CAR 上，基于 BERT 的再排序相较于传统 BM25 基线和先前的神经模型的性能提升有多大？
RQ3需要多少训练数据，BERT 重排序器才能达到具有竞争力的或最先进的结果？

主要发现

方法	Dev	Eval	Test
BM25 (Lucene, no tuning)	16.7	16.5	12.3
BM25 (Anserini, tuned)	-	-	15.3
Co-PACRR ⋆ (MacAvaney et al., 2017)	-	-	14.8
KNRM (Xiong et al., 2017)	21.8	19.8	-
Conv-KNRM (Dai et al., 2018)	29.0	27.1	-
IRNet †	27.8	28.1	-
BERT Base	34.7	-	31.0
BERT Large	36.5	35.8	33.5

BERT-LARGE 重排器在 MS MARCO 和 MS MARCO TREC-CAR 任务上取得最先进的结果。
在 MS MARCO 上，BERT-LARGE 超越了以前的 SOTA（例如 IR-NET），在 MRR@10 上获得显著提升。
仅用 100k 条查询-段落对的训练就能带来对比方法的显著性能提升。
使用 BM25 生成前 1000 条候选时，BERT 重排器在 BM25 等基线和其他神经模型之上有所改进。
该方法在仅使用可用数据的一小部分（如 100k 条对）进行训练时仍提供强结果。
作者发布了可重现结果的代码。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。