QUICK REVIEW

[论文解读] jina-embeddings-v3: Multilingual Embeddings With Task LoRA

Saba Sturua, Isabelle Mohr|arXiv (Cornell University)|Sep 16, 2024

Topic Modeling被引用 15

一句话总结

jina-embeddings-v3 是一个具有 570M 参数的多语言文本嵌入模型，带有任务特定的 LoRA 适配器，支持高达 8192-token 的上下文，实现了最先进的多语言和英语任务性能，同时通过 Matryoshka 表示学习实现灵活的维度大小。

ABSTRACT

We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks. With a default output dimension of 1024, users can flexibly reduce the embedding dimensions to as low as 32 without compromising performance, enabled by Matryoshka Representation Learning.

研究动机与目标

开发一个紧凑、高性能的多语言文本嵌入模型，针对长上下文检索和多种下游任务进行优化。
利用任务特定的 LoRA 适配器，为检索、聚类、分类和文本匹配定制嵌入。
整合现代技术（Matryoshka 表示学习、指令微调、RoPE 与长上下文检索），在提升性能的同时保持效率。
展示相较于更大规模的基于 LLM 的嵌入方法，在生产/边缘部署中的鲁棒性和成本效益。

提出的方法

以 XLM-RoBERTa 为基础架构，配备 FlashAttention 2 和可变 RoPE以支持 8192-token。
五个任务特定的 LoRA 适配器（retrieval.query、retrieval.passage、separation、classification、text-matching）实现任务条件嵌入。
两阶段训练：(i) 在 CulturaX 多语言语料库上进行 MLM 的预训练；(ii) 对嵌入任务进行微调，采用均值池化和基于 InfoNCE 的语义文本对损失。
五个适配器分别训练（除 retrieval.query/passage 共同训练外），在推理时根据任务输入进行选择。
Matryoshka 表示学习允许将输出维度从 1024 调整到最低 32，而不会带来较大性能损失。

实验结果

研究问题

RQ1一个紧凑的编码器（约 570M 参数）是否可以在跨任务和跨语言中实现具有竞争力的多语言嵌入质量？
RQ2任务特定的 LoRA 适配器是否相较于通用提示或基于指令的微调，在检索、聚类、分类和文本相似性嵌入方面带来改进？
RQ3长上下文支持（高达 8192 个标记）如何影响英语与多语言任务的嵌入质量？
RQ4整合 RoPE、MRD（Matryoshka 学习）和长上下文策略是否为生产/路由场景带来实际提升？

主要发现

在 MTEB 基准测试中，Jina-embeddings-v3 在多语言数据和长上下文检索任务（8192 标记）上实现了最先进的性能。
该模型在英语任务上优于 OpenAI 与 Cohere 的最新专有嵌入，在跨多语言任务上也超过 multilingual-e5-large-instruct。
默认输出维度为 1024，通过 Matryoshka 表示学习，嵌入可降至 32，且性能影响并不显著。
LoRA 适配器占总参数不到 3%，实现任务特定嵌入优化且开销很小。
长上下文评估显示，与包括 jina-embeddings-v2 和其他非基于 LLM 的编码器在内的若干基线相比，jina-embeddings-v3 在长文档检索任务上取得更优性能。
以故障分析驱动的检索适配器训练（合成数据与偏好学习）缓解了特定的检索故障模式，如句法偏差、命名实体误解、极性问题理解以及对低质量文档的偏好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。