[論文レビュー] MTEB: Massive Text Embedding Benchmark
MTEBは112言語で8つの埋め込みタスクにまたがる58データセットをベンチマークし、33モデルを評価して長所と短所を明らかにし、タスク全体で普遍的な最善は存在しないことを示します。
Text embeddings are commonly evaluated on a small set of datasets from a single task not covering their possible applications to other tasks. It is unclear whether state-of-the-art embeddings on semantic textual similarity (STS) can be equally well applied to other tasks like clustering or reranking. This makes progress in the field difficult to track, as various models are constantly being proposed without proper evaluation. To solve this problem, we introduce the Massive Text Embedding Benchmark (MTEB). MTEB spans 8 embedding tasks covering a total of 58 datasets and 112 languages. Through the benchmarking of 33 models on MTEB, we establish the most comprehensive benchmark of text embeddings to date. We find that no particular text embedding method dominates across all tasks. This suggests that the field has yet to converge on a universal text embedding method and scale it up sufficiently to provide state-of-the-art results on all embedding tasks. MTEB comes with open-source code and a public leaderboard at https://github.com/embeddings-benchmark/mteb.
研究の動機と目的
- 多様なタスクと言語にまたがるテキスト埋め込みの包括的で標準化された評価フレームワークを提供する。
- 自己教師ありと教師ありの埋め込みモデルの転移性と普遍的適用性を評価する。
- パフォーマンス、効率性、マルチリンガリティを定量化し、さまざまな埋め込み用途におけるモデル選択を導く。
提案手法
- 8つの埋め込みタスクタイプを定義する(バイテキストマイニング、分類、クラスタリング、ペア分類、リランキング、検索、STS、要約)。
- 固定埋め込みに対するコサイン類似度を用いた統一評価パイプラインの下で、112言語と58データセットを集約する。
- 統一前処理と評価指標で33モデル(オープンソースとAPIベース)をベンチマークし、正確さ、相関、MRR、MAP、nDCG等を比較する。
- 新しいモデル/データセットを最小コード(10行未満)で追加できる、オープンソースツールと公開リーダーボードを提供する。
- スケーリング(モデルサイズ)、効率性(待機遅延/スループット)、およびタスクを跨るマルチリンガル性能を分析する。
実験結果
リサーチクエスチョン
- RQ1MTEBではどの埋め込みモデルがどのタスクで最も高い性能を発揮するか?
- RQ2自己教師ありモデルはすべてのタスクで教師ありモデルとの差を縮めるか?
- RQ3モデルサイズはタスクを跨る性能と効率にどう影響するか?
- RQ4多言語事前学習がクロスリンガルおよび多言語タスクに与える影響は?
- RQ5ほとんどの埋め込みタスクで支配的な普遍的埋め込みモデルは存在するか?
主な発見
| Class. | Clust. | PairClass. | Rerank. | Retr. | STS | Summ. | Avg. | |
|---|---|---|---|---|---|---|---|---|
| ST5-Base | 69.81 | 40.21 | 85.17 | 53.09 | 33.63 | 81.14 | 31.39 | 55.27 |
| ST5-Large | 72.31 | 41.65 | 84.97 | 54.00 | 36.71 | 81.83 | 29.64 | 57.06 |
| ST5-XL | 72.84 | 42.34 | 86.06 | 54.71 | 38.47 | 81.66 | 29.91 | 57.87 |
| ST5-XXL | 73.42 | 43.71 | 85.06 | 56.43 | 42.24 | 82.63 | 30.08 | 59.51 |
| GTR-XXL | 67.41 | 42.42 | 86.12 | 56.65 | 48.48 | 78.38 | 30.64 | 58.97 |
| GTR-Large | 67.14 | 41.60 | 85.33 | 55.36 | 47.42 | 77.80 | 29.50 | 58.28 |
| GTR-XL | 67.11 | 41.51 | 86.13 | 55.96 | 47.96 | 77.80 | 30.21 | 58.42 |
| MPNet | 65.07 | 43.69 | 83.04 | 59.36 | 43.81 | 80.28 | 27.49 | 57.78 |
| MPNet-multilingual | 67.91 | 38.40 | 80.81 | 53.80 | 35.34 | 80.73 | 31.57 | 54.71 |
| OpenAI Ada Similarity | 70.44 | 37.52 | 76.86 | 49.02 | 18.36 | 78.60 | 26.94 | 49.52 |
- 単一の埋め込み手法がすべてのタスクを支配することはなく、タスクとデータセットによって性能は変動する。
- モデルサイズは一般的に性能と相関し、多数の英文タスクでは十億級パラメータのモデルが支配的だがコストも高い。
- 検索系タスクは非対称テキスト(クエリ対文書)に偏えて訓練・微調整されたモデルを好み、STS系タスクは対称埋め込みを好む。片方に最適化されたモデルが他方を保証するわけではない。
- ST5-XXLが英語平均で最も高く、ただしGTR-XXLとMPNet系は特定タスクで優れており、効率性とタスク適合がモデル選択の決定要因として依然重要。
- バイテキストマイニングはLaBSEが支配的。クラスタリングはMPNetのような小型モデルでも競合可能。多言語性能は言語・データセットによって異なる。
- 多言語MPNetは多言語・分類・STSの結果を強力に提供することが多い一方、SGPT-BLOOM-7B1-msmarcoは事前学習時に見られた言語で優れた性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。