Skip to main content
QUICK REVIEW

[论文解读] M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

J.B. Chen, Shitao Xiao|arXiv (Cornell University)|Feb 5, 2024
Natural Language Processing Techniques被引用 46
一句话总结

M3-Embedding 提供了一个多用途的文本嵌入模型,支持 100+ 种语言、多种检索功能(密集、稀疏、多向量),以及长输入粒度高达 8192 个标记,通过自我知识蒸馏和高效批处理进行训练。

ABSTRACT

In this paper, we introduce a new embedding model called M3-Embedding, which is distinguished for its versatility in extit{Multi-Linguality}, extit{Multi-Functionality}, and extit{Multi-Granularity}. It provides a uniform support for the semantic retrieval of more than 100 working languages. It can simultaneously accomplish the three common retrieval functionalities: dense retrieval, multi-vector retrieval, and sparse retrieval. Besides, it is also capable of processing inputs of different granularities, spanning from short sentences to long documents of up to 8,192 tokens. The effective training of M3-Embedding presents a series of technical contributions. Notably, we propose a novel self-knowledge distillation approach, where the relevance scores from different retrieval functionalities can be integrated as the teacher signal to enhance the training quality. We also optimize the batching strategy, which enables a large batch size and high training throughput to improve the discriminativeness of embeddings. M3-Embedding exhibits a superior performance in our experiment, leading to new state-of-the-art results on multilingual, cross-lingual, and long-document retrieval benchmarks.

研究动机与目标

  • 解决一个在多语言环境中可工作的单一多功能文本嵌入模型的需求。
  • 在一个模型中实现多种检索功能(密集、稀疏、多向量)。
  • 处理从简短句子到长文档的输入(最多 8192 个标记)。
  • 提出一个训练框架,利用自我知识蒸馏来统一异构的检索信号。
  • 通过优化批处理和高吞吐量数据筛选来提升训练效率。

提出的方法

  • 在一个统一框架中引入一个支持密集、稀疏和多向量检索的单一嵌入模型。
  • 对密集检索使用 [CLS] 标记,对稀疏和多向量检索使用其他标记嵌入。
  • 提出自我知识蒸馏,将来自异构检索信号的预测融合为教师信号。
  • 采用大规模的多源多语言数据集(无监督、监督和合成)进行训练和微调。
  • 优化批处理和数据处理以实现大批量和长输入处理;为长文档实现 MCLS 推理策略。

实验结果

研究问题

  • RQ1单一嵌入模型能否在多语言和多检索范式上达到最新的性能水平?
  • RQ2如何利用自我知识蒸馏同时训练密集、稀疏和多向量检索信号?
  • RQ3需要哪些数据和训练策略来支持长文档检索和广泛的输入粒度范围?
  • RQ4高效的批处理是否能在不牺牲嵌入判别性的前提下实现高吞吐量的训练?
  • RQ5在多语言和跨语言基准测试如 MIRACL 和 MKQA 上,M3-Embedding 的对比性能如何?

主要发现

  • M3-Embedding 在多语言和跨语言检索方面表现出色,在 MIRACL 和 MKQA 基准测试上创下了最新的结果。
  • 该模型学习三种检索功能(密集、稀疏、多向量),并从它们的结合中获益,从而获得更高质量的检索。
  • 它在高达 8192 个标记的输入粒度下保持稳定表现,在长文档检索基准中超过了许多基线。
  • 自我知识蒸馏,将所有检索信号的分数整合在一起,提升了训练效果和嵌入质量。
  • 高效的批处理策略和高质量的数据筛选有助于实现高训练吞吐量和具辨别力的嵌入。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。