Skip to main content
QUICK REVIEW

[论文解读] SparTerm: Learning Term-based Sparse Representation for Fast Text Retrieval

Yang Bai, Xiaoguang Li|arXiv (Cornell University)|Oct 2, 2020
Topic Modeling参考文献 16被引用 59
一句话总结

SparTerm 直接在全词汇表中学习稀疏的、基于术语的表示,通过将重要性预测器与门控控制器结合,实现术语加权与扩展,从而提升 MSMARCO 的稀疏检索。

ABSTRACT

Term-based sparse representations dominate the first-stage text retrieval in industrial applications, due to its advantage in efficiency, interpretability, and exact term matching. In this paper, we study the problem of transferring the deep knowledge of the pre-trained language model (PLM) to Term-based Sparse representations, aiming to improve the representation capacity of bag-of-words(BoW) method for semantic-level matching, while still keeping its advantages. Specifically, we propose a novel framework SparTerm to directly learn sparse text representations in the full vocabulary space. The proposed SparTerm comprises an importance predictor to predict the importance for each term in the vocabulary, and a gating controller to control the term activation. These two modules cooperatively ensure the sparsity and flexibility of the final text representation, which unifies the term-weighting and expansion in the same framework. Evaluated on MSMARCO dataset, SparTerm significantly outperforms traditional sparse methods and achieves state of the art ranking performance among all the PLM-based sparse models.

研究动机与目标

  • 通过将来自 PLMs 的深度上下文知识整合到 BoW 的第一阶段检索中来改进 BoW 基于的初筛。
  • 开发一个直接的、端到端框架,将 BoW 映射到稀疏词汇空间表示。
  • 在保持可解释性和效率的同时,平衡术语加权与扩展以增强语义匹配。

提出的方法

  • 引入一个重要性预测器,在全词汇表上产生密集的术语重要性分布。
  • 引入一个门控控制器,为词汇术语生成二进制稀疏激活掩码。
  • 将 F(重要性)和 G(门控)结合,形成 p' = F(p) ⊙ G(p),其中稀疏度由阈值 λ 控制。
  • 使字面术语激活与扩展驱动的激活同时存在,以弥合词汇鸿沟。
  • 使用正/负段落对 (q, p+, p-) 进行端到端的排序目标训练。
  • 可选地使用带有 Expansion 的训练来联合训练扩展门,使用段落–目标文本语料库与 L_exp。

实验结果

研究问题

  • RQ1能否从 PLMs 学到的直接、稀疏、全词汇表表示在第一阶段检索中超越传统稀疏方法?
  • RQ2重要性预测器和门控控制器如何在稀疏表示中实现术语加权与扩展?
  • RQ3字面仅激活与扩展增强门控对检索有效性的影响是什么?
  • RQ4在 MSMARCO 的段落检索和文档排序中,SparTerm 与 DeepCT 及 Doc2Query 系列方法相比如何?

主要发现

  • 在扩展增强门控下,SparTerm 在 MSMARCO 段落检索的稀疏模型中达到最优排序,MRR@10。
  • 仅字面的 SparTerm 在 MRR 和 Recall 上优于 DeepCT,显示出更强的术语加权能力。
  • 扩展使能的 SparTerm 在前几名的召回率上有所提升,展示了受控术语扩展的好处。
  • 与 Doc2Query-T5 相比,SparTerm(扩展增强)在 MRR@10 方面具备竞争力,在多个阈值上具有更高的 Recall。
  • 基于 PLM 的稀疏方法(DeepCT、Doc2Query-T5、SparTerm)优于无 PLM 的稀疏方法,表明上下文知识向稀疏表示的有效迁移。
  • 分析表明 SparTerm 扩展了语义相关术语(如同义词、共现),并分配更平滑、信息量更丰富的重要性分布。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。