Skip to main content
QUICK REVIEW

[論文レビュー] jina-embeddings-v3: Multilingual Embeddings With Task LoRA

Saba Sturua, Isabelle Mohr|arXiv (Cornell University)|Sep 16, 2024
Topic Modeling被引用数 15
ひとこと要約

jina-embeddings-v3 は、570M パラメータの多言語テキスト埋め込みモデルで、タスク固有の LoRA アダプターを搭載し、最大 8192 トークンの文脈をサポートします。多言語タスクと英語タスクで最先端の性能を達成しつつ、Matryoshka Representation Learning による柔軟な次元設定を可能にします。

ABSTRACT

We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks. With a default output dimension of 1024, users can flexibly reduce the embedding dimensions to as low as 32 without compromising performance, enabled by Matryoshka Representation Learning.

研究の動機と目的

  • 長文脈の検索と複数の下流タスクに最適化された、コンパクトで高性能な多言語テキスト埋め込みモデルを開発する。
  • タスク特異的 LoRA アダプターを活用して検索、クラスタリング、分類、およびテキストマッチングのために埋め込みを調整する。
  • 効率性を維持しつつ性能を向上させるため、Matryoshka Representation Learning、instruction tuning、RoPE、長文脈検索といった現代的な手法を統合する。
  • 本番環境/エッジでの使用に対して、より大規模な LLM ベースの埋め込み手法と比較して、堅牢性とコスト効率を実証する。

提案手法

  • 8192-トークン対応のための FlashAttention 2 と可変 RoPE を備えた XLM-RoBERTa に基づくベースアーキテクチャ。
  • Five タスク特異的 LoRA アダプター(retrieval.query、retrieval.passage、separation、classification、text-matching)は、タスク条件付きの埋め込みを可能にする。
  • Two-stage training: (i) CulturaX multilingual コーパス上での MLM による事前学習; (ii) 意味的なテキストペアに対する平均プーリングと InfoNCE ベースのロスで埋め込みタスクのファインチューニング。
  • Five adapters are trained separately (except retrieval.query/passage jointly) and selected at inference based on task input.
  • Matryoshka Representation Learning により、出力次元を 1024 から 32 まで、性能の大幅な低下を伴わずに調整できる。

実験結果

リサーチクエスチョン

  • RQ1コンパクトなエンコーダー(約 ~570M パラメータ)が、タスクと言語を跨る競争力のある多言語埋め込み品質を達成できるか?
  • RQ2タスク特異的 LoRA アダプターは、汎用プロンプトや指示ベースのチューニングよりも、検索、クラスタリング、分類、テキスト類似度の埋め込みを改善するか?
  • RQ3長文脈サポート(最大 8192 トークン)は、英語および多言語タスク全体で埋め込み品質にどう影響するか?
  • RQ4RoPE、MRD(Matryoshka Learning)、長文脈戦略を統合することは、production/routing シナリオに実用的な利点をもたらすか?

主な発見

  • Jina-embeddings-v3 は、MTEB ベンチマークにおける multilingual データと長文脈検索タスク(8192 トークン)で最先端の性能を達成する。
  • 本モデルは English タスクで OpenAI および Cohere の最新の独自埋め込みを上回り、 multilingual タスク全体で multilingual-e5-large-instruct を凌駕する。
  • デフォルトの出力次元 1024 で、Matryoshka Representation Learning を用いると、パフォーマンスの大きな低下を招くことなく、埋め込みを 32 まで低減できる。
  • LoRA アダプターは総パラメータの < 3% 未満 に相当し、最小限のオーバーヘッドでタスク特化の埋め込み最適化を可能にする。
  • 長文脈評価では、jina-embeddings-v3 が長文書検索タスクで他のベースラインと比較して優れた性能を示し、jina-embeddings-v2 や他の非 LLM ベースのエンコーダを含む。
  • 失敗分析に基づく検索アダプター訓練(合成データと好み学習)は、構文的バイアス、固有表現の誤解、極性質問の理解、低品質文書の好みといった特定の検索の欠陥モードを緩和する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。