Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

Luyu Gao, Jamie Callan|arXiv (Cornell University)|Aug 12, 2021
Topic Modeling被引用 54
一句话总结

coCondenser 通过一个无监督的语料库感知对比学习目标对 Condenser 基于语言模型进行预训练,以创建一个用于密集检索的鲁棒嵌入空间,减少微调数据工程和大批量训练需求,同时达到具有竞争力的结果。

ABSTRACT

Recent research demonstrates the effectiveness of using fine-tuned language models~(LM) for dense retrieval. However, dense retrievers are hard to train, typically requiring heavily engineered fine-tuning pipelines to realize their full potential. In this paper, we identify and address two underlying problems of dense retrievers: i)~fragility to training data noise and ii)~requiring large batches to robustly learn the embedding space. We use the recently proposed Condenser pre-training architecture, which learns to condense information into the dense vector through LM pre-training. On top of it, we propose coCondenser, which adds an unsupervised corpus-level contrastive loss to warm up the passage embedding space. Retrieval experiments on MS-MARCO, Natural Question, and Trivia QA datasets show that coCondenser removes the need for heavy data engineering such as augmentation, synthesis, or filtering, as well as the need for large batch training. It shows comparable performance to RocketQA, a state-of-the-art, heavily engineered system, using simple small batch fine-tuning.

研究动机与目标

  • 研究为何密集检索器对训练数据噪声脆弱且在学习过程中需要大批量数据。
  • 提出一种语料感知的预训练方法,用于构建用于密集检索的鲁棒嵌入空间。
  • 利用 Condenser 架构提升对噪声的鲁棒性并引入一个语料级对比损失。
  • 证明无监督预训练能够与大量工程化微调管线相媲美。
  • 显示在目标语料上进行预训练能够实现有效的小批量微调。

提出的方法

  • 在 Condenser 预训练架构的基础上,生成一个鲁棒的基于 CLS 的密集表示。
  • 添加一个语料级对比损失(coCondenser),在无监督情况下联合训练 MLM 和对比目标。
  • 使用文档中的跨度级采样作为对比损失的增强(SimCLR 风格),并定义一个跨文档二项式负采样。
  • 利用梯度缓存,在资源受限的硬件上实现内存高效的大批量对比预训练。
  • 在预训练后舍弃 Condenser 头,采用带监督对比损失的目标任务双编码器对主干进行微调。
  • 采用两轮微调方案,第一轮使用 BM25 负样本,第二轮从第一轮中挖掘的难负样本。

实验结果

研究问题

  • RQ1语料感知的无监督预训练能否减少在密集检索微调过程中的大量数据工程需求?
  • RQ2语料级对比目标是否有助于形成更有效的全局段落嵌入空间?
  • RQ3在语料感知预训练后,是否可能通过小批量微调实现有竞争力的性能?
  • RQ4在 MS-MARCO、Natural Questions 和 TriviaQA 上,coCondenser 相较于 RocketQA 等基线的表现如何?
  • RQ5哪些节省内存的技术使得在普通硬件上训练 coCondenser 成为可能?

主要发现

  • coCondenser 通过小批量微调实现具有竞争力的结果,达到或超过若干基线。
  • coCondenser 在仍然表现良好的同时,减少了对数据增强、去噪和大批量训练的需求。
  • 在目标语料(维基百科或 MS-MARCO)上的预训练带来接近或相当于更大规模半监督预训练方法(如 DPR-PAQ)的收益。
  • 对比的语料感知目标改善全局嵌入空间并增强对噪声的鲁棒性,提升各数据集的召回率。
  • 梯度缓存使在资源有限的硬件上进行内存高效的大批量对比预训练成为可能,同时不牺牲性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。