QUICK REVIEW

[论文解读] Understanding the Behaviors of BERT in Ranking

Yifan Qiao, Chenyan Xiong|arXiv (Cornell University)|Apr 16, 2019

Topic Modeling参考文献 8被引用 146

一句话总结

本文分析基于 BERT 的排序器在 MS MARCO 文本段落排序与 TREC Web Track adhoc 排序上的表现，结果显示由于跨查询的交互，MS MARCO 上 gains 强劲，但在 TREC 风格排序上增益较弱；此外还研究了 BERT 的注意力模式和术语匹配行为。

ABSTRACT

This paper studies the performances and behaviors of BERT in ranking tasks. We explore several different ways to leverage the pre-trained BERT and fine-tune it on two ranking tasks: MS MARCO passage reranking and TREC Web Track ad hoc document ranking. Experimental results on MS MARCO demonstrate the strong effectiveness of BERT in question-answering focused passage ranking tasks, as well as the fact that BERT is a strong interaction-based seq2seq matching model. Experimental results on TREC show the gaps between the BERT pre-trained on surrounding contexts and the needs of ad hoc document ranking. Analyses illustrate how BERT allocates its attentions between query-document tokens in its Transformer layers, how it prefers semantic matches between paraphrase tokens, and how that differs with the soft match patterns learned by a click-trained neural ranker.

研究动机与目标

研究如何将预训练的 BERT 应用于排序任务及其在不同基准上的有效性。
比较基于表示的与基于交互的 BERT 排序设置。
分析 BERT 在排名过程中的注意力分布与术语匹配行为。
解释为何 BERT 在 MS MARCO 上表现出色而在 TREC ad hoc 排序上并非同样出色。

提出的方法

在 MS MARCO 与 ClueWeb 数据上微调四个基于 BERT 的排序模型（BERT Rep, Last-Int, Mult-Int, Term-Trans）。
使用预训练的 BERT-Large 作为骨干网络，端到端微调以进行相关性分类。
使用 CLS 嵌入表示 q、d 或 qd 序列，并采用线性或基于交叉注意力的评分。
在 MS MARCO 与 ClueWeb 的标准 IR 指标下，与 BM25、LeToR、K-NRM、Conv-KNRM 基线进行对比评估。
分析注意力分布和术语匹配行为，以理解 BERT 关注的对象以及如何匹配术语。

实验结果

研究问题

RQ1不同的基于 BERT 的排序形式（Rep、Last-Int、Mult-Int、Term-Trans）在 MS MARCO 语段排序和 TREC Web Track adhoc 排序上的表现如何？
RQ2在多大程度上 BERT 中的跨查询—文档交互推动了排序性能？
RQ3BERT 的注意力模式和影响力术语如何与传统神经排序器以及基于用户点击的预训练信号不同？
RQ4为什么 BERT 在 MS MARCO 中表现出色而在 TREC ad hoc 任务中并非如此突出？对于每个设置，哪些信号更为有效？

主要发现

基于 BERT 的排序器显著提升 MS MARCO 的性能，交互式变体（Last-Int、Mult-Int、Term-Trans）优于早期模型，强大的跨问题—段落交互驱动提升。
BERT (Rep)，将 q 和 d 独立处理，在 MS MARCO 上表现接近随机，凸显跨序列交互对排序的重要性。
在 ClueWeb/TREC ad hoc 任务中，基于 BERT 的排序器未能超越基于特征的 LeToR 或基于 Bing 点击预训练的模型（Conv-KNRM Bing）；MARCO 的预训练信号对 ad hoc 排序的迁移效果不佳。
BERT 更关注标记器（[CLS]、[SEP]），对停用词关注较少，注意力在网络越深越分散；标记器对区分序列至关重要。
BERT（Last-Int）中的影响力术语往往是与查询的完全匹配或接近的改写，而 Conv-KNRM 依赖于较松散的语义关联。
BERT 在周边上下文上的预训练偏好语义上相近的文本对，与 seq2seq 风格的排序一致，而 ad hoc 排序更受用户点击预训练信号的影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。