Skip to main content
QUICK REVIEW

[论文解读] Multi-Stage Document Ranking with BERT

Rodrigo Nogueira, Wei Yang|arXiv (Cornell University)|Oct 31, 2019
Topic Modeling参考文献 42被引用 199
一句话总结

本文提出 monoBERT(点对点)和 duoBERT(成对)在一个三阶段多阶段排序架构中,在文档排序中平衡效果与延迟,在 MS MARCO 和 TREC CAR 上得到验证。

ABSTRACT

The advent of deep neural networks pre-trained via language modeling tasks has spurred a number of successful applications in natural language processing. This work explores one such popular model, BERT, in the context of document ranking. We propose two variants, called monoBERT and duoBERT, that formulate the ranking problem as pointwise and pairwise classification, respectively. These two models are arranged in a multi-stage ranking architecture to form an end-to-end search system. One major advantage of this design is the ability to trade off quality against latency by controlling the admission of candidates into each pipeline stage, and by doing so, we are able to find operating points that offer a good balance between these two competing metrics. On two large-scale datasets, MS MARCO and TREC CAR, experiments show that our model produces results that are either at or comparable to the state of the art. Ablation studies show the contributions of each component and characterize the latency/quality tradeoff space.

研究动机与目标

  • 在多阶段流水线中,动机与实现使用基于 BERT 的再排序器进行端到端文档排序。
  • 介绍 monoBERT(点对点)和 duoBERT(成对)作为阶段 H1 和 H2。
  • 展示候选进入与按阶段处理在生产风格系统中如何以质量换取延迟的权衡。
  • 在 MS MARCO 和 TREC CAR 上展示相对于 BM25 基线的改进。
  • 通过消融分析组件贡献,并刻画延迟与质量的权衡。

提出的方法

  • 包含 H0(BM25 词袋检索)、H1(monoBERT 二元相关性分类器)、H2(duoBERT 成对相关性排序器)的三阶段排序架构。
  • monoBERT 使用来自查询和候选的 CLS 表示来输出相关性概率 s_i;保留前 k1 个候选。
  • duoBERT 使用查询、候选 i 和候选 j 作为输入给 BERT,输出成对相关性 p_{i,j};用 Sum/Binary/Min/Max/Sample 对 p_{i,j} 进行聚合以得到最终的 s_i。
  • 预训练:初始通用 BERT 预训练,然后在任务语料上进行目标语料预训练(TCP)(对于 CAR 使用 Wikipedia 子集)。
  • 训练:TPU v3,相关/非相关段落的平衡批次,monoBERT 使用交叉熵损失,duoBERT 使用成对损失;在 MS MARCO 和 CAR 数据集上进行微调。

实验结果

研究问题

  • RQ1在多阶段流水线中,monoBERT 和 duoBERT 是否能提升相对于 BM25 基线的排序效果?
  • RQ2在 monoBERT/duoBERT 流水线中,随着 k0(H0 输入候选)和 k1(H1 输出)的变化,延迟–质量权衡如何?
  • RQ3目标语料预训练(TCP)是否优于域外预训练在神经排序中的表现?
  • RQ4不同聚合方法(Sum、Binary、Min、Max、Sample)如何影响 duoBERT 的最终排序?
  • RQ5monoBERT 和 duoBERT 在 MS MARCO 与 TREC CAR 上的表现如何,且为何在不同数据集上的增益不同?

主要发现

方法DevEval
BM25 (Microsoft Baseline)16.716.5
IRNet27.828.1
monoBERT (Jan 2019)36.535.9
Anserini (BM25)18.719.0
+ monoBERT37.236.5
+ monoBERT + duoBERT Max32.6-
+ monoBERT + duoBERT Min37.9-
+ monoBERT + duoBERT Sum38.237.0
+ monoBERT + duoBERT Binary38.3-
+ monoBERT + duoBERT Sum + TCP39.037.9
Leaderboard best39.738.3
  • monoBERT 在 MS MARCO 和 CAR 上显著超越 BM25 基线。
  • 在两个数据集上,加入 duoBERT(并使用 Sum 或 Binary 聚合)比单独的 monoBERT 取得额外提升。
  • Max 聚合方法表现不佳并被舍弃;Sum 和 Binary 在 MS MARCO 与 CAR 上分别提供最强增益。
  • 目标语料预训练(TCP)使 MS MARCO 的 MRR@10 进一步提升约 0.8 点。
  • 该方法在 MS MARCO 和 CAR 数据集上达到或接近最新水平,并展示了清晰的延迟–质量权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。