QUICK REVIEW

[论文解读] Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

Yanzhao Zhang, Mingxin Li|ArXiv.org|Jun 5, 2025

Topic Modeling被引用 3

一句话总结

本文提出 Qwen3 Embedding，一组建立在 Qwen3 基础模型之上的文本嵌入与重新排序模型，采用多阶段管线、合成数据与高质量监督进行训练，在多语言和代码检索基准上达到最先进水平，并以 Apache 2.0 公开。

ABSTRACT

In this work, we introduce the Qwen3 Embedding series, a significant advancement over its predecessor, the GTE-Qwen series, in text embedding and reranking capabilities, built upon the Qwen3 foundation models. Leveraging the Qwen3 LLMs' robust capabilities in multilingual text understanding and generation, our innovative multi-stage training pipeline combines large-scale unsupervised pre-training with supervised fine-tuning on high-quality datasets. Effective model merging strategies further ensure the robustness and adaptability of the Qwen3 Embedding series. During the training process, the Qwen3 LLMs serve not only as backbone models but also play a crucial role in synthesizing high-quality, rich, and diverse training data across multiple domains and languages, thus enhancing the training pipeline. The Qwen3 Embedding series offers a spectrum of model sizes (0.6B, 4B, 8B) for both embedding and reranking tasks, addressing diverse deployment scenarios where users can optimize for either efficiency or effectiveness. Empirical evaluations demonstrate that the Qwen3 Embedding series achieves state-of-the-art results across diverse benchmarks. Notably, it excels on the multilingual evaluation benchmark MTEB for text embedding, as well as in various retrieval tasks, including code retrieval, cross-lingual retrieval and multilingual retrieval. To facilitate reproducibility and promote community-driven research and development, the Qwen3 Embedding models are publicly available under the Apache 2.0 license.

研究动机与目标

利用 Qwen3 基础模型提升文本嵌入与重新排序能力。
设计结合合成数据与监督微调的多阶段训练管线。
使嵌入与重新排序在多语言与代码检索任务中具备鲁棒性、语言与任务感知能力。
提供可配置的嵌入维度与面向下游任务的指令定制。
通过开源模型与训练代码促进可重复性。

提出的方法

在 dense 的 Qwen3 主干上构建 0.6B、4B、8B 尺度的嵌入与重新排序模型。
使用多阶段训练管线：大规模无监督预训练结合合成数据，然后进行高质量监督微调。
在微调检查点上应用模型融合（基于 slerp）以提升鲁棒性。
对嵌入采用对比损失（基于 InfoNCE），结合复杂的负样本与同批信号。
对重新排序采用通过二元 Yes/No 表达的监督微调损失，在基于大语言模型的评分框架内进行优化。
利用 Qwen3-instruct 模型合成多样化、跨语言、多任务的数据，生成高质量训练信号；从中挑选高质量对用于最终监督阶段。
提供灵活的嵌入维度与指令定制，以适应下游任务。

实验结果

研究问题

RQ1基础模型（Qwen3）如何提升嵌入质量与跨语言及代码检索任务的重新排序性能？
RQ2包含合成数据合成与模型融合在内的多阶段训练管线对嵌入与重新排序性能有何影响？
RQ3大规模的合成数据是否能降低对人工注释数据的依赖，同时维持或提升下游任务表现？
RQ4不同模型规模（0.6B、4B、8B）如何影响嵌入与重新排序的效果及部署权衡？
RQ5哪些实际特性（如指令感知输入、可定制维度）能提升嵌入与重新排序模型的实际应用性？

主要发现

Qwen3-Embedding-8B 在多语言文本嵌入基准上取得顶尖表现，在代码检索基准上也具有竞争力。
该嵌入系列在 MTEB Multilingual 与 MTEB Code 基准上达到最先进的结果，在若干任务上超过此前领先的专有模型。
重新排序模型（0.6B、4B、8B）在嵌入主干之上持续改进，超越基线重新排序器，且规模越大收益越显著。
两阶段训练策略（合成数据预训练结合高质量监督微调）结合模型融合显著提升鲁棒性与泛化能力。
消融研究表明合成数据预训练与模型融合对达到峰值性能至关重要。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。