QUICK REVIEW

[论文解读] Learning-to-Rank with BERT in TF-Ranking

Shuguang Han, Xuanhui Wang|arXiv (Cornell University)|Apr 17, 2020

Topic Modeling参考文献 8被引用 60

一句话总结

本文提出 TFR-BERT，这是一个框架，在 TF-Ranking 中对查询-文档对的 BERT 表示进行微调，以对 MS MARCO 执行神经学习排序，达到对段落重新排序和完整排序的 state-of-the-art 或接近 state-of-the-art 的结果，并通过对 BERT、RoBERTa 和 ELECTRA 的集成进一步提升性能。

ABSTRACT

This paper describes a machine learning algorithm for document (re)ranking, in which queries and documents are firstly encoded using BERT [1], and on top of that a learning-to-rank (LTR) model constructed with TF-Ranking (TFR) [2] is applied to further optimize the ranking performance. This approach is proved to be effective in a public MS MARCO benchmark [3]. Our first two submissions achieve the best performance for the passage re-ranking task [4], and the second best performance for the passage full-ranking task as of April 10, 2020 [5]. To leverage the lately development of pre-trained language models, we recently integrate RoBERTa [6] and ELECTRA [7]. Our latest submissions improve our previously state-of-the-art re-ranking performance by 4.3% [8], and achieve the third best performance for the full-ranking task [9] as of June 8, 2020. Both of them demonstrate the effectiveness of combining ranking losses with BERT representations for document ranking.

研究动机与目标

在基于 BERT 表示的文档排序上，推动使用学习排序框架而不是单独的分类方法。
介绍 TFR-BERT，这是一个通用框架，使用 BERT 编码查询-段落对，并使用 TF-Ranking 进行排序损失。
在 MS MARCO 上评估该方法，以证明在段落重新排序和完整排序任务上的提升。
展示跨不同 BERT-family 模型和排序损失的集成在最大化性能方面的好处。

提出的方法

将查询-段落对表示为 BERT 的两句输入，并使用 [CLS] 标记作为表示。
将 BERT 输出输入到 TF-Ranking，以应用点式、成对式和列表式损失。
在 TPU 上以列表大小 12 和批量大小 32 进行训练，每步产生 384 个查询-文档对。
探索跨多种损失和多种预训练模型（BERT、RoBERTa、ELECTRA）的集成。
在 MS MARCO 上使用 MRR@10 作为评估指标评估段落重新排序和完整排序任务。

实验结果

研究问题

RQ1在 MS MARCO 上，建立在 BERT 表示之上的 LTR 模型是否能在段落重新排序和完整排序方面胜过基线？
RQ2在损失和多种 BERT-family 模型上的集成策略是否在 MRR@10 上带来稳定的提升？
RQ3在完整排序设定中，DeepCT、BM25 与神经排序的组合表现如何？
RQ4在 TF-Ranking BERT 框架中使用更新的预训练模型（RoBERTa、ELECTRA）有哪些影响？

主要发现

模型	开发集 (MRR@10)	评估集 (MRR@10)
BM25	0.1670	0.1649
Duet V2	0.2517	0.2527
BERT + Small training (13)	0.3653	0.3587
Previous Leaderboard Best	0.3730	0.3676
TFR-BERT Single Run (Sigmoid cross entropy, pointwise)	0.3716	-
TFR-BERT (Pairwise logistic loss)	0.3718	-
TFR-BERT (Softmax loss, listwise)	0.3725	-
Submission #1 (re-ranking)	0.3782	0.3660
Ensemble: Multiple Losses (5 runs)	0.3839	-
Ensemble: Pairwise logistic loss (5 runs)	0.3849	-
Ensemble: Softmax loss (5 runs)	0.3856	-
Submission #2 (re-ranking, 5 runs)	0.3877	0.3747
Ensemble: Multiple BERTs (5 runs)	0.3898	-
RoBERTa (5 runs, listwise loss)	0.3958	-
ELECTRA (5 runs, listwise loss)	0.3976	-
Submission #4 (re-ranking: BERT/RoBERTa/ELECTRA ensemble)	0.4046	0.3905
Submission #5 (full ranking ensemble)	0.4213	0.4073

TFR-BERT 在段落重新排序方面超越基线，与 BM25 及先前的基于 BERT 的方法相比，在 MRR@10 上获得显著提升。
对多次运行和多种损失类型进行集成，相比单一运行带来显著提升（在 dev 上约提高 3.5% 到 4.0%）。
将 RoBERTa 与 ELECTRA 的集成进一步提升了重新排序的性能，超出仅使用 BERT 的情况。
在完整排序方面，将 DeepCT 与 TF-Ranking BERT 集成结合，达到已报道提交中的最高性能，接近排行榜最佳。
在 2020 年中期，多个 BERT-family 模型（BERT、RoBERTa、ELECTRA）的集成在重新排序提交中提供了最佳的 MRR@10。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。