QUICK REVIEW

[論文レビュー] KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model

Xinshuo Hu, Zifei Shan|arXiv (Cornell University)|Jan 2, 2025

Topic Modeling被引用数 3

ひとこと要約

tldr: KaLM-Embeddingは高品質データと技術で訓練された多言語埋め込みモデルを提示し、サブ1Bモデルの多言語ベンチマークで最先端の性能を達成します。

ABSTRACT

As retrieval-augmented generation prevails in large language models, embedding models are becoming increasingly crucial. Despite the growing number of general embedding models, prior work often overlooks the critical role of training data quality. In this work, we introduce KaLM-Embedding, a general multilingual embedding model that leverages a large quantity of cleaner, more diverse, and domain-specific training data. Our model has been trained with key techniques proven to enhance performance: (1) persona-based synthetic data to create diversified examples distilled from LLMs, (2) ranking consistency filtering to remove less informative samples, and (3) semi-homogeneous task batch sampling to improve training efficacy. Departing from traditional BERT-like architectures, we adopt Qwen2-0.5B as the pre-trained model, facilitating the adaptation of auto-regressive language models for general embedding tasks. Extensive evaluations of the MTEB benchmark across multiple languages show that our model outperforms others of comparable size, setting a new standard for multilingual embedding models with <1B parameters.

研究の動機と目的

研究データの品質を通じて埋め込みモデルの改善を動機づける。
デコーダーベースLM（Qwen2-0.5B）から適応した一般的な多言語埋め込みモデルを開発する。
データ選別と訓練技法を導入して埋め込みの品質と頑健性を高める。
コンパクトなモデルサイズでMTEBにおける強力な多言語性能を示す。

提案手法

埋め込み用の平均プーリングを用いた事前学習バックボーンとしてQwen2-0.5Bを使用する。
大規模で多様なデータミックス（20の事前訓練カテゴリ）を用いた弱教師付き対比学習で前訓練を行う。
70の多様な監督付きデータでファインチューニングを行い、訓練データの品質とドメイン網羅性を確保する。
Personaベースの合成データを適用してLLMの知識を多様な埋め込み中心データへ蒸留する。
ランキング一貫性フィルタリングを適用して情報量の少ないサンプルを除去し、ファインチューニング時のノイズを低減する。
Matryoshka表現学習を用いて多次元埋め込みとさまざまなベクターサイズを柔軟に可能にする。

実験結果

リサーチクエスチョン

RQ1サブ1Bパラメータ規模で訓練データ品質は多言語埋め込み性能にどう影響するか？
RQ2慎重に選別されたデータを用いたデコーダーのみのアーキテクチャは、多言語ベンチマークでより大きな埋め込みモデルと競合できるか？
RQ3データフィルタリング、構造化タスクプロンプト、バッチ戦略は言語間の埋め込み品質にどのような影響を与えるか？
RQ4指示付きデータと指示なしデータの混在は埋め込みタスクに有益か？

主な発見

KaLM-Embeddingは1B未満のパラメータのモデルの中でMTEBにおける最先端の多言語性能を達成。
タスク指示とデータ選別戦略は性能に大きく影響し、データ品質と指示の使用が鍵となる。
ランキング一貫性フィルタリングと高品質なファインチューニングデータは一般化能力を向上させ、特に英語対中国語データセットにおいて顕著。
Matryoshka表現学習は低次元埋め込みに利点を提供するが、影響はウェイト付けとアーキテクチャの選択に依存する。
本研究では半同質的タスクバッチ処理は最終モデルの改善には寄与しなかったが、ハードネガティブと偽ネガティブのバランスを取る示唆を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。