[论文解读] jina-embeddings-v3: Multilingual Embeddings With Task LoRA
jina-embeddings-v3 是一个具有 570M 参数的多语言文本嵌入模型,带有任务特定的 LoRA 适配器,支持高达 8192-token 的上下文,实现了最先进的多语言和英语任务性能,同时通过 Matryoshka 表示学习实现灵活的维度大小。
We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks. With a default output dimension of 1024, users can flexibly reduce the embedding dimensions to as low as 32 without compromising performance, enabled by Matryoshka Representation Learning.
研究动机与目标
- 开发一个紧凑、高性能的多语言文本嵌入模型,针对长上下文检索和多种下游任务进行优化。
- 利用任务特定的 LoRA 适配器,为检索、聚类、分类和文本匹配定制嵌入。
- 整合现代技术(Matryoshka 表示学习、指令微调、RoPE 与长上下文检索),在提升性能的同时保持效率。
- 展示相较于更大规模的基于 LLM 的嵌入方法,在生产/边缘部署中的鲁棒性和成本效益。
提出的方法
- 以 XLM-RoBERTa 为基础架构,配备 FlashAttention 2 和可变 RoPE以支持 8192-token。
- 五个任务特定的 LoRA 适配器(retrieval.query、retrieval.passage、separation、classification、text-matching)实现任务条件嵌入。
- 两阶段训练:(i) 在 CulturaX 多语言语料库上进行 MLM 的预训练;(ii) 对嵌入任务进行微调,采用均值池化和基于 InfoNCE 的语义文本对损失。
- 五个适配器分别训练(除 retrieval.query/passage 共同训练外),在推理时根据任务输入进行选择。
- Matryoshka 表示学习允许将输出维度从 1024 调整到最低 32,而不会带来较大性能损失。
实验结果
研究问题
- RQ1一个紧凑的编码器(约 570M 参数)是否可以在跨任务和跨语言中实现具有竞争力的多语言嵌入质量?
- RQ2任务特定的 LoRA 适配器是否相较于通用提示或基于指令的微调,在检索、聚类、分类和文本相似性嵌入方面带来改进?
- RQ3长上下文支持(高达 8192 个标记)如何影响英语与多语言任务的嵌入质量?
- RQ4整合 RoPE、MRD(Matryoshka 学习)和长上下文策略是否为生产/路由场景带来实际提升?
主要发现
- 在 MTEB 基准测试中,Jina-embeddings-v3 在多语言数据和长上下文检索任务(8192 标记)上实现了最先进的性能。
- 该模型在英语任务上优于 OpenAI 与 Cohere 的最新专有嵌入,在跨多语言任务上也超过 multilingual-e5-large-instruct。
- 默认输出维度为 1024,通过 Matryoshka 表示学习,嵌入可降至 32,且性能影响并不显著。
- LoRA 适配器占总参数不到 3%,实现任务特定嵌入优化且开销很小。
- 长上下文评估显示,与包括 jina-embeddings-v2 和其他非基于 LLM 的编码器在内的若干基线相比,jina-embeddings-v3 在长文档检索任务上取得更优性能。
- 以故障分析驱动的检索适配器训练(合成数据与偏好学习)缓解了特定的检索故障模式,如句法偏差、命名实体误解、极性问题理解以及对低质量文档的偏好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。