[论文解读] Unsupervised Dense Information Retrieval with Contrastive Learning
本论文在对比学习中使用 MoCo 风格的负样本队列和随机裁切,训练无监督密集检索器 Contriever,实现在零-shot 和少-shot 检索以及强大的多语言迁移方面的出色表现,并在 BEIR 上与 BM25 相当。
Recently, information retrieval has seen the emergence of dense retrievers, using neural networks, as an alternative to classical sparse methods based on term-frequency. These models have obtained state-of-the-art results on datasets and tasks where large training sets are available. However, they do not transfer well to new applications with no training data, and are outperformed by unsupervised term-frequency methods such as BM25. In this work, we explore the limits of contrastive learning as a way to train unsupervised dense retrievers and show that it leads to strong performance in various retrieval settings. On the BEIR benchmark our unsupervised model outperforms BM25 on 11 out of 15 datasets for the Recall@100. When used as pre-training before fine-tuning, either on a few thousands in-domain examples or on the large MS~MARCO dataset, our contrastive model leads to improvements on the BEIR benchmark. Finally, we evaluate our approach for multi-lingual retrieval, where training data is even scarcer than for English, and show that our approach leads to strong unsupervised performance. Our model also exhibits strong cross-lingual transfer when fine-tuned on supervised English data only and evaluated on low resources language such as Swahili. We show that our unsupervised models can perform cross-lingual retrieval between different scripts, such as retrieving English documents from Arabic queries, which would not be possible with term matching methods.
研究动机与目标
- 证明需要在没有标注数据的情况下也能获得良好表现的无监督密集检索器的必要性。
- 提出一个对比学习框架,用于使用未对齐文本训练检索的双编码器。
- 展示基于裁剪的正样本构造和较大的负样本池在 BEIR 和 QA 数据集上获得竞争性结果。
- 演示多语言和跨语言检索能力及在微调前进行预训练的好处。
提出的方法
- 使用带有共享编码器 f_theta 的双编码器架构来独立对查询和文档进行编码。
- 应用对比的 InfoNCE 损失,将正样本查询-文档对拉近,同时将负样本推远。
- 通过对单个文档进行独立裁剪(随机 token 范围)和可选增强(删除、掩码、替换)来构造正样本对。
- 采用 MoCo 风格的负采样,使用动量编码器作为键,并从前一批次中建立负样本队列。
- 在 Wikipedia 和 CCNet 数据上进行训练,形成用于预训练的大型无监督语料库。
- 在零-shot 和少-shot 设置下进行无监督评估,并研究其在对 MS MARCO 的微调前作为预训练的作用。
实验结果
研究问题
- RQ1对比学习是否能在没有标注数据的情况下训练出有效的无监督密集检索器?
- RQ2正样本对的构造方法(裁剪 vs. ICT)如何影响检索性能?
- RQ3大规模无监督预训练对 BEIR 风格的零-shot 检索和多语言/Mr. TyDi 任务有哪些好处?
- RQ4与有监督预训练相比,无监督预训练在少样本适应性方面表现如何?
- RQ5在目标语言数据稀缺时,多语言预训练和跨语言检索的影响是什么?
主要发现
- Contriever 在零-shot 评估中对 11/15 的 BEIR 数据集达到与 BM25 相当的 Recall@100。
- 作为预训练阶段,对比学习在在 MS MARCO 上微调后提升 BEIR 的 nDCG@10 和 Recall@100,在该设置中达到密集双编码器的最新 Recall@100。
- 在少样本设置中,无监督预训练在若干数据集上超过对 MS MARCO 进行微调的 BERT,显示出强大的少样本适应性。
- 多语言预训练(mContriever)覆盖 29 种语言,在用英文数据微调后实现有效的跨语言检索并表现强劲。
- 展示了跨语言检索的能力,包括用非英文查询检索英文文档以及跨脚本检索(如阿拉伯语查询到英文文档)。
- 使用对比预训练再进行 MS MARCO 微调,在基于 MS MARCO 的指标上取得更高的性能,同时在跨语言上保持与 BEIR 的竞争力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。