QUICK REVIEW

[논문 리뷰] MMTEB: Massive Multilingual Text Embedding Benchmark

Kenneth Enevoldsen, Isaac Chung|ArXiv.org|2025. 02. 19.

Natural Language Processing Techniques인용 수 8

한 줄 요약

MMTEB는 250개 이상 언어와 500개 이상 작업에 걸쳐 텍스트 임베딩을 평가하는 대규모의 커뮤니티 주도 벤치마크로, 랭킹을 유지하면서 컴퓨트 사용량을 줄이도록 최적화되어 있습니다.

ABSTRACT

Text embeddings are typically evaluated on a limited set of tasks, which are constrained by language, domain, and task diversity. To address these limitations and provide a more comprehensive evaluation, we introduce the Massive Multilingual Text Embedding Benchmark (MMTEB) - a large-scale, community-driven expansion of MTEB, covering over 500 quality-controlled evaluation tasks across 250+ languages. MMTEB includes a diverse set of challenging, novel tasks such as instruction following, long-document retrieval, and code retrieval, representing the largest multilingual collection of evaluation tasks for embedding models to date. Using this collection, we develop several highly multilingual benchmarks, which we use to evaluate a representative set of models. We find that while large language models (LLMs) with billions of parameters can achieve state-of-the-art performance on certain language subsets and task categories, the best-performing publicly available model is multilingual-e5-large-instruct with only 560 million parameters. To facilitate accessibility and reduce computational cost, we introduce a novel downsampling method based on inter-task correlation, ensuring a diverse selection while preserving relative model rankings. Furthermore, we optimize tasks such as retrieval by sampling hard negatives, creating smaller but effective splits. These optimizations allow us to introduce benchmarks that drastically reduce computational demands. For instance, our newly introduced zero-shot English benchmark maintains a ranking order similar to the full-scale version but at a fraction of the computational cost.

연구 동기 및 목표

기존 벤치마크를 넘어 언어, 도메인, 작업에 걸친 텍스트 임베딩 평가 범위를 확장한다.
저자원 언어의 접근성을 높이기 위해 계산 요구를 줄인다.
다국어 임베딩 벤치마크를 구축하고 평가하기 위한 재사용 가능하고 오픈 소스 프레임워크를 제공한다.
다양한 작업 전반에 걸쳐 지시문 튜닝과 모델 크기가 다국어 임베딩 성능에 미치는 영향을 평가한다.

제안 방법

250개 언어에 걸친 500개 이상 작업을 다국어 벤치마크(MTEB Multilingual, Europe, Indic)로 집계하고 표준화한다.
검색, 클러스터링 및 병렬 텍스트(Bi-text) 작업을 위한 인코딩 필요성을 줄이기 위해 다운샘플링과 임베딩 캐싱을 도입한다.
작업 간 상관관계에 기반한 작업 선택 전략을 사용하여 모델 순위를 보존하면서 작업을 축소한다.
전체 영어 벤치마크와 상관된 순위를 가지되 더 적은 작업을 가진 제로샷 변형(MTEB eng, v2)을 제공한다.
작업 간 보르다 순위(Borda count ranking)를 사용해 성능을 계산하고 작업-카테고리별 및 전체 점수를 보고한다.
재현성과 확장을 위한 오픈 소스 도구 및 공개 리더보드를 제공한다.

실험 결과

연구 질문

RQ1저자원 설정에서도 계산 가능성이 유지되는 대규모 다국어 텍스트 임베딩 벤치마크를 어떻게 만들 수 있는가?
RQ2다양한 다국어 모델(지시문 튜닝 모델 포함)이 광범위한 언어와 작업에서 어떻게 성능을 발휘하는가?
RQ3다운샘플링, 하드 네거티브, 캐싱과 같은 최적화 전략이 어떻게 모델 순위를 보존하면서 계산량을 대폭 줄이는가?
RQ4완전 다국어 벤치마크와 지역/언어별 하위 집합 간의 벤치마크 결과 차이는 무엇인가?
RQ5지시문 튜닝된 다국어 모델이 저자원 언어에서 비지시문 튜닝 대안보다 얼마나 더 우수하게 성능을 발휘하는가?

주요 결과

Rank (↓)	Model (↓)	Borda Count	All	Category	Btxt	Pr Clf	Clf	STS	Rtrvl	M. Clf	Clust	Rrnk
1	multilingual-e5-large-instruct	1 (1375)	63.2	62.1	80.1	80.9	64.9	76.8	57.1	22.9	51.5	62.6
2	GritLM-7B	2 (1258)	60.9	60.1	70.5	79.9	61.8	73.3	58.3	22.8	50.5	63.8
3	e5-mistral-7b-instruct	3 (1233)	60.3	59.9	70.6	81.1	60.3	74.0	55.8	22.2	51.4	63.8
4	multilingual-e5-large	4 (1109)	58.6	58.2	71.7	79.0	59.9	73.5	54.1	21.3	42.9	62.8
5	multilingual-e5-base	5 (944)	57.0	56.5	69.4	77.2	58.2	71.4	52.7	20.2	42.7	60.2
6	multilingual-mpnet-base	6 (830)	52.0	51.1	52.1	81.2	55.1	69.7	39.8	16.4	41.1	53.4
7	multilingual-e5-small	7 (784)	55.5	55.2	67.5	76.3	56.5	70.4	49.3	19.1	41.7	60.4
8	LaBSE	8 (719)	52.1	51.9	76.4	76.0	54.6	65.3	33.2	20.1	39.2	50.2
9	multilingual-MiniLM-L12	9 (603)	48.8	48.0	44.6	79.0	51.7	66.6	36.6	14.9	39.3	51.0
10	all-mpnet-base	10 (526)	42.5	41.1	21.2	70.9	47.0	57.6	32.8	16.3	40.8	42.2
11	all-MiniLM-L12	11 (490)	42.2	40.9	22.9	71.7	46.8	57.2	32.5	14.6	36.8	44.3
12	all-MiniLM-L6	12 (418)	41.4	39.9	20.1	71.2	46.2	56.1	32.5	15.1	38.0	40.3
1	GritLM-7B	1 (757)	63.0	62.7	90.4	89.9	64.7	76.1	57.1	17.6	45.3	60.3
2	multilingual-e5-large-instruct	2 (732)	62.2	62.3	90.4	90.0	63.2	77.4	54.8	17.3	46.9	58.4
3	e5-mistral-7b-instruct	3 (725)	61.7	61.9	89.6	91.2	62.9	76.5	53.6	15.5	46.5	59.8
4	multilingual-e5-large	4 (586)	58.5	58.7	84.5	88.8	60.4	75.8	50.8	15.0	38.2	55.9
5	multilingual-e5-base	5 (499)	57.2	57.5	84.1	87.4	57.9	73.7	50.2	14.9	38.2	53.9
6	multilingual-mpnet-base	6 (463)	54.4	54.7	79.5	90.7	56.6	74.3	41.2	6.9	35.8	52.3
7	multilingual-e5-small	7 (399)	55.0	55.7	80.9	86.4	56.1	71.6	46.1	14.0	36.5	54.1
8	LaBSE	8 (358)	51.8	53.5	88.8	85.2	55.1	65.7	34.4	16.3	34.3	48.7
9	multilingual-MiniLM-L12	9 (328)	51.7	52.4	77.0	88.9	52.7	72.5	37.6	5.7	34.4	50.2
10	all-mpnet-base	10 (310)	44.7	44.7	29.8	82.0	49.2	63.9	37.3	10.9	36.2	49.6
11	all-MiniLM-L12	11 (292)	44.4	44.1	32.1	81.5	49.2	64.2	36.2	7.6	32.5	49.2
12	all-MiniLM-L6	12 (237)	43.4	43.2	27.2	80.2	47.8	62.7	37.3	8.8	33.6	47.7
1	multilingual-e5-large-instruct	1 (209)	70.2	71.6	80.4	76.3	67.0	53.7	84.9	51.7	87.5	?
2	multilingual-e5-large	2 (188)	66.4	65.1	77.7	75.1	64.7	43.9	82.6	25.6	86.0	?
3	multilingual-e5-base	3 (173)	64.6	62.6	74.2	72.8	63.8	41.1	77.8	24.6	83.8	?
4	multilingual-e5-small	4 (164)	64.7	63.2	73.7	73.8	63.8	40.8	76.8	29.1	84.4	?
5	GritLM-7B	5 (151)	60.2	58.0	58.4	67.8	60.0	27.2	79.5	28.0	84.7	?
6	e5-mistral-7b-instruct	6 (144)	60.0	58.4	59.1	73.0	59.6	23.0	77.3	32.7	84.4	?
7	LaBSE	7 (139)	61.9	59.7	74.1	64.6	61.9	52.8	64.3	21.1	79.0	?
8	multilingual-mpnet-base	8 (137)	58.5	55.2	44.2	82.0	61.9	34.1	57.9	32.1	74.3	?
9	multilingual-MiniLM-L12	9 (98)	49.7	42.2	15.3	77.8	57.6	19.8	48.8	16.7	59.3	?
10	all-mpnet-base	10 (68)	33.6	22.6	3.7	52.6	45.2	-2.5	12.9	4.0	42.6	?
11	all-MiniLM-L12	11 (49)	33.1	23.2	3.5	55.0	43.9	-5.3	13.9	3.7	47.6	?
12	all-MiniLM-L6	12 (40)	31.8	20.4	2.5	53.7	44.1	-6.3	6.2	3.1	39.2	?

지시문 튜닝 모델은 작업 카테고리 전반에서 비지시문 튜닝 모델보다 상당히 우수한 성능을 보인다.
소형에서 중형 규모의 지시문 튜닝 모델(예: multilingual-e5-large-instruct)은 다국어 벤치마크에서 더 큰 비지시문 튜닝 모델보다 우수한 성능을 보일 수 있다.
GritLM-7B는 검색 작업에서 강력하게 남아 있으며, multilingual-e5-large-instruct는 특히 저자원 언어에서 다국어 환경에서 전체적으로 우위를 점하는 경향이 있다.
다운샘플링과 부트스트랩 기반 클러스터링과 같은 최적화가 모델 순위를 보존하면서 평균 약 16배의 속도 향상을 달성한다(평균 Spearman 0.96).
제로샷 영어 벤치마크(MTEB eng, v2)는 전체 버전과 높은 상관관계를 보이며( Spearman 0.90 ), 비용 효율적인 평가를 가능하게 한다.
벤치마크는 모델 크기만으로 다국어 성능을 보장하지 않는다는 trade-off를 강조하며, 사전 학습 데이터 분포(예: 영어 중심 vs 광범위한 다국어 코퍼스)가 결과에 상당한 영향을 미친다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.