QUICK REVIEW

[论文解读] Text Embeddings by Weakly-Supervised Contrastive Pre-training

Liang Wang, Nan Yang|arXiv (Cornell University)|Dec 7, 2022

Topic Modeling被引用 112

一句话总结

E5 通过对 CCPairs 的弱监督对比预训练学习通用文本嵌入，在零-shot 检索上取得强劲表现，并在微调后以显著更少的参数超越以往的大型嵌入模型。

ABSTRACT

This paper presents E5, a family of state-of-the-art text embeddings that transfer well to a wide range of tasks. The model is trained in a contrastive manner with weak supervision signals from our curated large-scale text pair dataset (called CCPairs). E5 can be readily used as a general-purpose embedding model for any tasks requiring a single-vector representation of texts such as retrieval, clustering, and classification, achieving strong performance in both zero-shot and fine-tuned settings. We conduct extensive evaluations on 56 datasets from the BEIR and MTEB benchmarks. For zero-shot settings, E5 is the first model that outperforms the strong BM25 baseline on the BEIR retrieval benchmark without using any labeled data. When fine-tuned, E5 obtains the best results on the MTEB benchmark, beating existing embedding models with 40x more parameters.

研究动机与目标

激发对用于检索、聚类和分类的高质量单向量文本嵌入的需求。
提出一个弱监督对比预训练框架，以学习通用嵌入。
整理一个大型高质量文本对数据集 CCPairs，并展示强大的零-shot 和微调性能。
展示嵌入在多样任务和基准上在标注数据有限的情况下具有良好迁移性。

提出的方法

使用带有共享 Transformer 编码器的双编码器架构，为查询和文本段生成固定大小的嵌入。
使用 InfoNCE 对比损失，结合批内负样本和较大批量大小进行训练。
从半结构化网络源整理 CCPairs，并应用基于一致性的筛选，保留约270M个高质量文本对。
可选地使用带标签的数据（MS-MARCO、NQ、NLI）进行微调，结合困难负样本和来自跨编码器教师的知识蒸馏。
在 BEIR（零-shot）和 MTEB（56 个英语任务）上评估嵌入，以展示可迁移性和鲁棒性。

实验结果

研究问题

RQ1是否能从对经过筛选的网络规模文本对数据集进行弱监督对比预训练中学习到高质量的通用文本嵌入？
RQ2基于 CCPairs 的训练在零-shot 与微调的检索任务中，与合成/噪声数据及带标签数据的微调相比如何？
RQ3数据质量、批量大小和负采样对嵌入质量和基准性能有何影响？
RQ4在有监督微调后，尺寸较小到中等的 E5 模型在多大程度上可以与更大型的嵌入模型竞争？],"key_findings":["E5 在 BEIR 的零-shot 检索中达到最先进或具有竞争力的结果，在某些数据集上无需任何带标签数据就超越 BM25。","E5-base 和 E5-large 在 MTEB 上达到具有竞争力或更优越的性能，超过参数多达 40 倍的嵌入模型。","零-shot 的 SST-2 风格提示用于文本分类，仅凭嵌入就显示出强大性能，显示出广泛的适用性。","使用带标签的数据（MS-MARCO、NQ、NLI）进行微调，在检索、聚类和 STS 任务上带来显著提升；当结合多样数据源时，提升会放大。","更大批量大小（更多批内负样本）在多个数据集上持续提升检索性能。","CCPairs 的数据筛选带来显著收益；在若干任务上，使用带筛选的 1M 对数据比同等规模的未筛选数据表现更好。","批内负样本在其设置下优于 MoCo 和预批次负样本策略，突出了简单批内负样本在大规模对比预训练中的有效性。","与 BM25 相比，像 E5 这样的密集检索模型仍然能补充词汇方法，尤其在长尾或词汇匹配场景，表明混合方法仍有空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。