QUICK REVIEW

[论文解读] RepBERT: Contextualized Text Embeddings for First-Stage Retrieval

Jingtao Zhan, Jiaxin Mao|arXiv (Cornell University)|Jun 28, 2020

Topic Modeling参考文献 21被引用 58

一句话总结

RepBERT 使用用于查询和文档的固定长度上下文嵌入，通过内积来评估相关性，在 MS MARCO 上实现第一阶段检索的最先进性能，同时保持与词袋方法相同的效率。

ABSTRACT

Although exact term match between queries and documents is the dominant method to perform first-stage retrieval, we propose a different approach, called RepBERT, to represent documents and queries with fixed-length contextualized embeddings. The inner products of query and document embeddings are regarded as relevance scores. On MS MARCO Passage Ranking task, RepBERT achieves state-of-the-art results among all initial retrieval techniques. And its efficiency is comparable to bag-of-words methods.

研究动机与目标

促使用语义化、固定长度的嵌入替代基于词袋的第一阶段检索。
开发一个基于编码器的模型，使在线效率与词袋方法相当。
展示在 MS MARCO 段落排序任务上第一阶段检索的最先进性能。
分析训练策略以及与精确匹配信号的结合。
提供关于再排序兼容性和实际部署考虑的见解。

提出的方法

使用基于 BERT 的编码器，通过对输入的标记表示进行平均，结合 [CLS]/[SEP] 作为框架，来为查询和文档生成固定长度的嵌入。
在查询和文档表示之间共享编码器权重，以实现语义匹配。
将相关性定义为查询嵌入与文档嵌入的内积，并在同一批次中的负样本上使用 MultiLabelMarginLoss 进行优化。
采用批内负样本采样，在一个批次内高效地处理大量负样本进行训练。
使用 MS MARCO 的 Train Triples 数据进行训练，并使用指定的超参数（学习率 3e-6、warmup 等）使用 ADAM 微调。
在 MS MARCO 段落排序上，将第一阶段检索性能与 BM25 及其他基线进行比较。

实验结果

研究问题

RQ1固定长度的查询和文档上下文化嵌入能否替代传统的基于词袋的第一阶段检索？
RQ2通过嵌入进行语义匹配对检索指标（MRR@10、Recall@1000）的影响，与 BM25 和其他神经方法相比如何？
RQ3在召回率和排序性能方面，RepBERT 如何与再排序模型及其他检索信号（例如 docTTTTTquery）互动？
RQ4哪些训练策略（批内负样本）和模型配置能产生最佳的第一阶段检索性能？

主要发现

模型	MRR@10	R@1000	开发端延迟（ms/查询）	测试端延迟（ms/查询）
BM25(Anserini)	0.184	0.186	0.853	50
doc2query	0.215	0.218	0.893	90
DeepCT	0.243	0.239	0.913	55
docTTTTTquery	0.277	0.272	0.947	64
Ours (RepBERT)	0.304	0.294	0.943	80
Best non-ensemble, non-BERT [19]	0.298	0.291	-	-
BM25 + BERT Large [20]	0.365	0.358	3,400	-

RepBERT 在 MS MARCO 开发集/测试集的第一阶段检索中取得比 BM25、doc2query、DeepCT 和 docTTTTTquery 更高的 MRR@10。
RepBERT 在 Recall@1000 上接近最佳的 DocTTTTTquery 结果，在大规模候选集合上优于大多数基线。
其效率与词袋方法相当，具备离线嵌入存储和在线内积计算。
作为第一阶段检索器时，RepBERT 在较小深度下提供最佳召回，在较大深度下对后续使用 BERT Large 的再排序具有竞争力的性能。
将 RepBERT 与精确匹配检索器（如 docTTTTTquery、BM25）结合，可以提升 MRR@10 和 Recall@1000，表明它们具有互补的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。