QUICK REVIEW

[논문 리뷰] MTEB: Massive Text Embedding Benchmark

Niklas Muennighoff, Nouamane Tazi|arXiv (Cornell University)|2022. 10. 13.

Topic Modeling인용 수 62

한 줄 요약

MTEB 벤치마크는 58개 데이터셋을 8개 임베딩 태스크로 구성하고 112개 언어에서 33개 모델을 평가하여 강점/약점을 파악하고 태스크 전반에 걸쳐 보편적으로 우수한 모델은 없음을 보여준다.

ABSTRACT

Text embeddings are commonly evaluated on a small set of datasets from a single task not covering their possible applications to other tasks. It is unclear whether state-of-the-art embeddings on semantic textual similarity (STS) can be equally well applied to other tasks like clustering or reranking. This makes progress in the field difficult to track, as various models are constantly being proposed without proper evaluation. To solve this problem, we introduce the Massive Text Embedding Benchmark (MTEB). MTEB spans 8 embedding tasks covering a total of 58 datasets and 112 languages. Through the benchmarking of 33 models on MTEB, we establish the most comprehensive benchmark of text embeddings to date. We find that no particular text embedding method dominates across all tasks. This suggests that the field has yet to converge on a universal text embedding method and scale it up sufficiently to provide state-of-the-art results on all embedding tasks. MTEB comes with open-source code and a public leaderboard at https://github.com/embeddings-benchmark/mteb.

연구 동기 및 목표

다양한 태스크와 언어에 걸쳐 텍스트 임베딩에 대한 광범위하고 표준화된 평가 프레임워크를 제공한다.
self-supervised와 supervised 임베딩 모델 모두의 전이성 및 보편적 적용 가능성을 평가한다.
다양한 임베딩 사용 사례에 맞춘 모델 선택을 가이드하기 위해 성능, 효율성, 다국어 특성을 정량화한다.

제안 방법

8가지 임베딩 태스크 유형을 정의한다(비텍스트 채굴(bitext mining), 분류, 클러스터링, 쌍 분류, 재정렬, 검색, STS, 요약).
고정 임베딩에서 코사인 유사도를 활용하는 단일 평가 파이프라인으로 112개 언어와 58개 데이터셋을 집계한다.
일관된 전처리 및 평가 지표를 사용하여 33개 모델(open-source 및 API 기반)을 벤치마킹하고 정확도, 상관관계, MRR, MAP, nDCG 등을 비교한다.
새로운 모델/데이터셋을 최소한의 코드로 추가할 수 있는 오픈 소스 도구와 공개 리더보드를 제공한다(코드 10줄 미만).
모델 규모, 지연/처량 등 효율성, 그리고 태스크 간 다국어 성능을 분석한다.

실험 결과

연구 질문

RQ1MTEB에서 어떤 임베딩 모델이 어떤 태스크에서 최상의 성능을 보이나?
RQ2self-supervised 모델이 모든 태스크에서 supervised 모델과의 격차를 줄이는가?
RQ3모델 규모가 태스크별 성능과 효율성에 어떤 영향을 미치는가?
RQ4다국어 사전학습이 교차 언어 및 다국어 태스크에 어떤 영향을 미치는가?
RQ5대부분의 임베딩 태스크에서 우월한 보편적 임베딩 모델이 존재하는가?

주요 결과

클래스	클러스터링	쌍 분류	재랭크	검색	STS	요약	평균
ST5-Base	69.81	40.21	85.17	53.09	33.63	81.14	31.39	55.27
ST5-Large	72.31	41.65	84.97	54.00	36.71	81.83	29.64	57.06
ST5-XL	72.84	42.34	86.06	54.71	38.47	81.66	29.91	57.87
ST5-XXL	73.42	43.71	85.06	56.43	42.24	82.63	30.08	59.51
GTR-XXL	67.41	42.42	86.12	56.65	48.48	78.38	30.64	58.97
GTR-Large	67.14	41.60	85.33	55.36	47.42	77.80	29.50	58.28
GTR-XL	67.11	41.51	86.13	55.96	47.96	77.80	30.21	58.42
MPNet	65.07	43.69	83.04	59.36	43.81	80.28	27.49	57.78
MPNet-multilingual	67.91	38.40	80.81	53.80	35.34	80.73	31.57	54.71
OpenAI Ada Similarity	70.44	37.52	76.86	49.02	18.36	78.60	26.94	49.52

모든 태스크를 지배하는 단일 임베딩 방법은 없으며, 성능은 태스크와 데이터셋에 따라 다르게 나타난다.
모델 규모는 일반적으로 성능과 상관관계가 있으며, 다중 억 단위 파라미터 모델은 영어 태스크의 대다수에서 우위를 점하지만 비용도 더 크다.
검색/조회 태스크는 비대칭 텍스트(쿼리 대비 문서)에 대해 훈련되었거나 미세조정된 모델이 유리하고, STS 유사 태스크는 대칭적 임베딩을 선호하는 경향이 있으며 하나의 모델이 다른 태스크를 보장하지 않는다.
ST5-XXL은 영어 평균에서 가장 높지만, GTR-XXL 및 MPNet 변종도 특정 태스크에서 우수하며, 효율성 및 태스크 적합성 역시 모델 선택의 핵심이다.
비텍스트 채굴은 LaBSE가 주도하고, 클러스터링은 MPNet 같은 소형 모델과의 경쟁 가능성이 있으며, 다국어 성능은 언어와 데이터셋에 따라 다양하다.
다국어 MPNet은 다국어/분류/STS에서 강력한 성능을 제공하는 반면, SGPT-BLOOM-7B1-msmarco는 사전학습 중에 보았던 언어에서 뛰어난 성과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.