[论文解读] Learning-to-Rank with BERT in TF-Ranking
本文提出 TFR-BERT,这是一个框架,在 TF-Ranking 中对查询-文档对的 BERT 表示进行微调,以对 MS MARCO 执行神经学习排序,达到对段落重新排序和完整排序的 state-of-the-art 或接近 state-of-the-art 的结果,并通过对 BERT、RoBERTa 和 ELECTRA 的集成进一步提升性能。
This paper describes a machine learning algorithm for document (re)ranking, in which queries and documents are firstly encoded using BERT [1], and on top of that a learning-to-rank (LTR) model constructed with TF-Ranking (TFR) [2] is applied to further optimize the ranking performance. This approach is proved to be effective in a public MS MARCO benchmark [3]. Our first two submissions achieve the best performance for the passage re-ranking task [4], and the second best performance for the passage full-ranking task as of April 10, 2020 [5]. To leverage the lately development of pre-trained language models, we recently integrate RoBERTa [6] and ELECTRA [7]. Our latest submissions improve our previously state-of-the-art re-ranking performance by 4.3% [8], and achieve the third best performance for the full-ranking task [9] as of June 8, 2020. Both of them demonstrate the effectiveness of combining ranking losses with BERT representations for document ranking.
研究动机与目标
- 在基于 BERT 表示的文档排序上,推动使用学习排序框架而不是单独的分类方法。
- 介绍 TFR-BERT,这是一个通用框架,使用 BERT 编码查询-段落对,并使用 TF-Ranking 进行排序损失。
- 在 MS MARCO 上评估该方法,以证明在段落重新排序和完整排序任务上的提升。
- 展示跨不同 BERT-family 模型和排序损失的集成在最大化性能方面的好处。
提出的方法
- 将查询-段落对表示为 BERT 的两句输入,并使用 [CLS] 标记作为表示。
- 将 BERT 输出输入到 TF-Ranking,以应用点式、成对式和列表式损失。
- 在 TPU 上以列表大小 12 和批量大小 32 进行训练,每步产生 384 个查询-文档对。
- 探索跨多种损失和多种预训练模型(BERT、RoBERTa、ELECTRA)的集成。
- 在 MS MARCO 上使用 MRR@10 作为评估指标评估段落重新排序和完整排序任务。
实验结果
研究问题
- RQ1在 MS MARCO 上,建立在 BERT 表示之上的 LTR 模型是否能在段落重新排序和完整排序方面胜过基线?
- RQ2在损失和多种 BERT-family 模型上的集成策略是否在 MRR@10 上带来稳定的提升?
- RQ3在完整排序设定中,DeepCT、BM25 与神经排序的组合表现如何?
- RQ4在 TF-Ranking BERT 框架中使用更新的预训练模型(RoBERTa、ELECTRA)有哪些影响?
主要发现
| 模型 | 开发集 (MRR@10) | 评估集 (MRR@10) |
|---|---|---|
| BM25 | 0.1670 | 0.1649 |
| Duet V2 | 0.2517 | 0.2527 |
| BERT + Small training (13) | 0.3653 | 0.3587 |
| Previous Leaderboard Best | 0.3730 | 0.3676 |
| TFR-BERT Single Run (Sigmoid cross entropy, pointwise) | 0.3716 | - |
| TFR-BERT (Pairwise logistic loss) | 0.3718 | - |
| TFR-BERT (Softmax loss, listwise) | 0.3725 | - |
| Submission #1 (re-ranking) | 0.3782 | 0.3660 |
| Ensemble: Multiple Losses (5 runs) | 0.3839 | - |
| Ensemble: Pairwise logistic loss (5 runs) | 0.3849 | - |
| Ensemble: Softmax loss (5 runs) | 0.3856 | - |
| Submission #2 (re-ranking, 5 runs) | 0.3877 | 0.3747 |
| Ensemble: Multiple BERTs (5 runs) | 0.3898 | - |
| RoBERTa (5 runs, listwise loss) | 0.3958 | - |
| ELECTRA (5 runs, listwise loss) | 0.3976 | - |
| Submission #4 (re-ranking: BERT/RoBERTa/ELECTRA ensemble) | 0.4046 | 0.3905 |
| Submission #5 (full ranking ensemble) | 0.4213 | 0.4073 |
- TFR-BERT 在段落重新排序方面超越基线,与 BM25 及先前的基于 BERT 的方法相比,在 MRR@10 上获得显著提升。
- 对多次运行和多种损失类型进行集成,相比单一运行带来显著提升(在 dev 上约提高 3.5% 到 4.0%)。
- 将 RoBERTa 与 ELECTRA 的集成进一步提升了重新排序的性能,超出仅使用 BERT 的情况。
- 在完整排序方面,将 DeepCT 与 TF-Ranking BERT 集成结合,达到已报道提交中的最高性能,接近排行榜最佳。
- 在 2020 年中期,多个 BERT-family 模型(BERT、RoBERTa、ELECTRA)的集成在重新排序提交中提供了最佳的 MRR@10。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。