Skip to main content
QUICK REVIEW

[论文解读] Sparse, Dense, and Attentional Representations for Text Retrieval

Yi Luan, Jacob Eisenstein|arXiv (Cornell University)|May 1, 2020
Domain Adaptation and Few-Shot Learning参考文献 54被引用 83
一句话总结

{

ABSTRACT

Dual encoders perform retrieval by encoding documents and queries into dense lowdimensional vectors, scoring each document by its inner product with the query. We investigate the capacity of this architecture relative to sparse bag-of-words models and attentional neural networks. Using both theoretical and empirical analysis, we establish connections between the encoding dimension, the margin between gold and lower-ranked documents, and the document length, suggesting limitations in the capacity of fixed-length encodings to support precise retrieval of long documents. Building on these insights, we propose a simple neural model that combines the efficiency of dual encoders with some of the expressiveness of more costly attentional architectures, and explore sparse-dense hybrids to capitalize on the precision of sparse retrieval. These models outperform strong alternatives in large-scale retrieval.

研究动机与目标

  • 评估压缩(密集)双编码器相对于稀疏词袋模型在检索中的容量和保真度。
  • 研究文档长度和编码维度如何影响检索保真度以及前两名结果之间的边界差距。
  • 提出将密集表示与稀疏表示或多个向量相结合的架构,以提升检索效率和准确性。
  • 在开放域问答和 MS MARCO 基准数据集上评估模型,以确定在大规模检索中的实际效果。

提出的方法

  • 使用随机投影对压缩双编码器进行理论分析,将嵌入维度与稀疏词袋检索的保真度相关联。
  • 推导基于随机高斯或 Rademacher 嵌入的成对排序误差和 recall-at-r 的界限(引理1–3)。
  • 引入一种多向量编码模型,其中文档由一组向量表示,相关性等于与查询向量的内积的最大值。
  • 对跨注意力扩展进行分析并与密集和稀疏基线进行比较。
  • 在多个任务上的实证评估:包含段落 ICT、Natural Questions(重排序和开放域检索)以及 MS MARCO,使用 BM25、DE-BERT 变体、ME-BERT 变体和稀疏-密集混合模型。
  • 在大规模集合中使用可扩展最近邻搜索(ScaNN)进行检索;使用交叉熵损失和困难负样本挖掘进行训练。

实验结果

研究问题

  • RQ1在不同文档长度下,压缩的密集编码相对于稀疏词袋模型的保真度如何?
  • RQ2文档长度和嵌入维度 k 如何影响双编码器设置中黄金文档与竞争文档之间的边界?
  • RQ3多向量或稀疏-密集混合方法是否能在检索准确性和效率方面超过传统的双编码器或纯稀疏方法,特别是对于较长的文档?
  • RQ4密集与混合模型在如 MS MARCO 和 Natural Questions 这样的大规模检索基准上,相较于 BM25 和跨注意力重排序模型的表现如何?

主要发现

  • 随机投影理论表明,给定错误概率所需的嵌入维度 k 与归一化边距和文档长度的关系。
  • 多向量编码(ME-BERT)在若干长文档检索场景中优于单向量双编码器(DE-BERT)和 BM25。
  • 跨注意力模型提供强大的重排序性能,但在大规模检索中计算成本较高;多向量与混合模型在效率与准确性之间提供更优的权衡。
  • 稀疏-密集混合模型(例如 HYBRID-ME-BERT-uni/bi)相对于其组成部分带来显著提升,尤其随着文档长度的增加。
  • 在 MS MARCO 和 Natural Questions 基准上,混合和多向量方法与最先进的检索方法相竞争甚至优越,ME-BERT-768 及相关混合在各任务中表现良好。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。