Skip to main content
QUICK REVIEW

[논문 리뷰] Improving Text Embeddings with Large Language Models

Liang Wang, Nan Yang|arXiv (Cornell University)|2023. 12. 31.
Topic Modeling인용 수 13
한 줄 요약

저자들은 독점 LLM으로 다양하고 합성 데이터를 생성하여 텍스트 임베딩용 오픈 소스 디코더-전용 모델을 학습시켰고, 라벨 데이터 없이도 1k 학습 스텝 이하에서 강력한 결과를 달성했으며, 합성 데이터와 일부 라벨 데이터를 사용할 때 BEIR와 MTEB에서 최첨단 성능을 달성한다.

ABSTRACT

In this paper, we introduce a novel and simple method for obtaining high-quality text embeddings using only synthetic data and less than 1k training steps. Unlike existing methods that often depend on multi-stage intermediate pre-training with billions of weakly-supervised text pairs, followed by fine-tuning with a few labeled datasets, our method does not require building complex training pipelines or relying on manually collected datasets that are often constrained by task diversity and language coverage. We leverage proprietary LLMs to generate diverse synthetic data for hundreds of thousands of text embedding tasks across 93 languages. We then fine-tune open-source decoder-only LLMs on the synthetic data using standard contrastive loss. Experiments demonstrate that our method achieves strong performance on highly competitive text embedding benchmarks without using any labeled data. Furthermore, when fine-tuned with a mixture of synthetic and labeled data, our model sets new state-of-the-art results on the BEIR and MTEB benchmarks.

연구 동기 및 목표

  • 멀티스테이지 파이프라인이나 대규모 라벨링 데이터 없이 텍스트 임베딩 향상을 도모한다.
  • 여러 언어와 작업에 걸쳐 LLM을 사용한 간단한 합성 데이터 생성 파이프라인을 제안한다.
  • 합성 데이터로 오픈소스 LLM을 미세조정하면 경쟁력 있는 임베딩이 얻어진다는 것을 보여준다.
  • 라벨 데이터와 함께 사용할 때 BEIR와 MTEB에서 최첨단 결과를 보여준다.
  • 이 접근법의 다언어성 및 긴 컨텍스트 능력을 논의한다.

제안 방법

  • 93개 언어에 걸친 과업별 합성(쿼리, 양성, 어려운 음수) 트리플을 브레인스토밍하고 생성하기 위해 독점 LLM을 사용한다.
  • 작업 풀을 브레인스톰하는 단계적 프롬프트 전략을 적용한 뒤, 작업 정의에 조건화된 데이터를 생성한다.
  • MS MARCO가 가능할 때 합성 데이터에서 InfoNCE 대조 손실로 오픈소스 디코더-전용 LLM(Mistral-7B)을 미세조정한다.
  • 사전 학습된 LLM의 마지막 토큰 임베딩을 쿼리/문서 표현으로 사용하고 코사인 유사도에서 온도 tau=0.02를 적용한다.
  • <1k 스텝을 가능하게 하기 위해 LoRA(랭크 16)와 그라디언트 체크포인트링, 혼합 정밀도, DeepSpeed ZeRO-3 같은 트레이닝 트릭을 채택한다.
  • RoPE 회전 베이스 조정 및 합성 장문 컨텍스트 태스크를 통해 장문 컨텍스트 능력을 탐구한다.
Figure 1: An example two-step prompt template for generating synthetic data with GPT-4. We first prompt GPT-4 to brainstorm a list of potential retrieval tasks, and then generate (query, positive, hard negative) triplets for each task. “ { … } ” denotes a placeholder that will be replaced by samplin
Figure 1: An example two-step prompt template for generating synthetic data with GPT-4. We first prompt GPT-4 to brainstorm a list of potential retrieval tasks, and then generate (query, positive, hard negative) triplets for each task. “ { … } ” denotes a placeholder that will be replaced by samplin

실험 결과

연구 질문

  • RQ1합성 데이터로 생성된 LLMs를 사용한 단일 단계 학습으로 고품질 텍스트 임베딩을 학습할 수 있는가?
  • RQ2합성 데이터 단독 대 합성 데이터+라벨 데이터가 벤치마크 성능(BEIR, MTEB)에 미치는 영향은 무엇인가?
  • RQ3다언어 커버리지가 고자원/저자원 언어 간 임베딩 품질에 어떤 영향을 미치는가?
  • RQ4사전 학습된 LLM에서 탁월한 임베딩을 얻으려면 대조적 사전 학습이 필요한가?
  • RQ5임베딩을 긴 맥락 태스크 및 개인화된 검색 시나리오로 확장할 수 있는가?

주요 결과

데이터셋 수Class.Clust.PairClass.RerankRetr.STSSumm.Avg
561211341510166.6
56Unsupervised ModelsGlove57.327.770.943.321.661.928.942.0
56SimCSE bert-unsup62.529.070.346.520.374.331.245.5
56Supervised ModelsSimCSE bert-sup67.333.473.747.521.879.123.348.7
56Contriever66.741.182.553.141.976.530.456.0
56GTR xxl67.442.486.156.748.578.430.659.0
56Sentence-T5 xxl73.443.785.156.442.282.630.159.5
56E5 large-v275.244.586.056.650.682.130.262.3
56GTE large73.346.885.059.152.283.431.763.1
56BGE large-en-v1.576.046.187.160.054.383.131.664.2
56Ours E5 mistral-7b full data78.550.388.360.256.984.631.466.6
56Ours w/ synthetic data only78.250.586.059.046.981.231.963.1
56Ours w/ synthetic + msmarco78.349.987.159.552.281.232.764.5
  • 합성 데이터만으로 학습해도 라벨 데이터 없이도 MTEB 성능이 경쟁력 있다.
  • 합성 데이터와 라벨 데이터를 혼합해 미세조정하면 BEIR 및 MTEB 벤치마크에서 최첨단 결과를 달성한다.
  • 합성 데이터만으로의 모델은 평균 MTEB 점수 63.1에 도달하고, 합성 데이터+MS-MARCO는 64.5, 전체 데이터는 66.6에 도달한다.
  • E5_mistral-7b 전체 데이터 모델이 MTEB 평균에서 이전 최첨단보다 2.4점 앞선다.
  • 대조적 사전 학습은 Mistral-7B 계열 모델에 대해 다른 아키텍처보다 영향력이 작아, 자동회귀 사전 학습이 강력한 표현을 제공함을 시사한다.
  • 이 접근법은 93개 언어로 확장 가능하며, 컨텍스트 길이 확장을 통한 장문 컨텍스트 능력을 시연하며 자원 풍부한 언어에서 최상의 성능을 보인다.
Figure 2: Task type and language statistics of the generated synthetic data (see Section 3.1 for task type definitions). The “Others” category contains the remaining languages from the XLM-R language list.
Figure 2: Task type and language statistics of the generated synthetic data (see Section 3.1 for task type definitions). The “Others” category contains the remaining languages from the XLM-R language list.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.