Skip to main content
QUICK REVIEW

[論文レビュー] M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

J.B. Chen, Shitao Xiao|arXiv (Cornell University)|Feb 5, 2024
Natural Language Processing Techniques被引用数 46
ひとこと要約

M3-Embeddingは、100以上の言語をサポートし、密集検索、疎結合検索、マルチベクトル検索などの複数の検索関数を備え、8192トークンまでの長い入力粒度に対応する多用途なテキスト埋め込みモデルを提供します。自己知識蒸留と効率的なバッチ処理を用いて訓練されています。

ABSTRACT

In this paper, we introduce a new embedding model called M3-Embedding, which is distinguished for its versatility in \textit{Multi-Linguality}, \textit{Multi-Functionality}, and \textit{Multi-Granularity}. It provides a uniform support for the semantic retrieval of more than 100 working languages. It can simultaneously accomplish the three common retrieval functionalities: dense retrieval, multi-vector retrieval, and sparse retrieval. Besides, it is also capable of processing inputs of different granularities, spanning from short sentences to long documents of up to 8,192 tokens. The effective training of M3-Embedding presents a series of technical contributions. Notably, we propose a novel self-knowledge distillation approach, where the relevance scores from different retrieval functionalities can be integrated as the teacher signal to enhance the training quality. We also optimize the batching strategy, which enables a large batch size and high training throughput to improve the discriminativeness of embeddings. M3-Embedding exhibits a superior performance in our experiment, leading to new state-of-the-art results on multilingual, cross-lingual, and long-document retrieval benchmarks.

研究の動機と目的

  • 複数の言語に跨って機能する、単一の汎用的なテキスト埋め込みモデルの必要性に対応する。
  • 1つのモデル内で複数の検索機能(dense、sparse、multi-vector)を実現する。
  • 短い文から長い文書(最大8192トークン)までの入力を扱う。
  • 異種の検索信号を統合する自己知識蒸留を活用した訓練フレームワークを提案する。
  • 最適化されたバッチ処理と高スループットなデータキュレーションで訓練効率を向上させる。

提案手法

  • 密集・疎結合・マルチベクトル検索を統一的なフレームワークでサポートする単一の埋め込みモデルを導入する。
  • [CLS]トークンを密集検索に、他のトークン埋め込みを疎結合およびマルチベクトル検索に用いる。
  • 異種の検索信号からの予測を統合する教師信号として、自己知識蒸留を提案する。
  • 訓練とファインチューニングのために、監督あり/なしおよび合成を含む大規模な多源多言語データセットを利用する。
  • 大規模バッチと長入力処理を可能にするためのバッチ処理とデータ処理を最適化し、長文文書のためのMCLS推論戦略を実装する。

実験結果

リサーチクエスチョン

  • RQ11つの埋め込みモデルは複数言語と複数の検索パラダイムで最先端の性能を達成できるのか。
  • RQ2自己知識蒸留をどのように用いて密集・疎結合・マルチベクトル検索信号を共同訓練できるか。
  • RQ3長文検索と広い入力粒度範囲をサポートするために、どのようなデータと訓練戦略が必要か。
  • RQ4効率的なバッチ処理は埋め込みの識別性を損なうことなく高スループットな訓練を実現できるか。
  • RQ5M3-Embeddingの多言語および跨言語ベンチマーク(MIRACLや MKQA など)での比較性能はどうなるか。

主な発見

  • M3-Embeddingは強力な多言語・跨言語検索性能を達成し、MIRACLおよびMKQAベンチマークで最先端の結果を樹立した。
  • モデルは三つの検索機能(dense、sparse、multi-vector)を学習し、それらの組み合わせによって卓越した検索品質を得られる。
  • 8192トークンまでの入力粒度にわたって堅牢な性能を維持し、長文検索ベンチマークで多くのベースラインを上回る。
  • すべての検索信号のスコアを統合する自己知識蒸留は、訓練効果と埋め込み品質を向上させる。
  • 効率的なバッチ戦略と高品質データキュレーションは、高い訓練スループットと識別性の高い埋め込みに寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。