Skip to main content
QUICK REVIEW

[논문 리뷰] SGPT: GPT Sentence Embeddings for Semantic Search

Niklas Muennighoff|arXiv (Cornell University)|2022. 02. 17.
Topic Modeling인용 수 56
한 줄 요약

SGPT는 디코더-만 GPT 모델을 활용하여 의미 검색을 위한 고품질 문장 임베딩을 생성하는 방법을 보여주며, BitFit를 통한 편향-튜닝으로 Bi-Encoders와 로그-확률 프롬프트 Cross-Encoders를 통해 경쟁 대형 모델보다 현저히 적은 매개변수로 BEIR에서 최첨단 결과를 달성합니다.

ABSTRACT

Decoder transformers have continued increasing in scale reaching hundreds of billions of parameters. Due to their scale the same decoder sets state-of-the-art results on various language tasks via prompting or fine-tuning. Yet, these large foundation models remain unusable for the related fields of semantic search and sentence embeddings. This prevents possibly new state-of-the-art results and forces organizations to train and maintain separate models. To this end, we propose SGPT to use decoders for sentence embeddings and semantic search via prompting or fine-tuning. At 5.8 billion parameters SGPT improves on the previously best sentence embeddings by a margin of 7% and outperforms a concurrent method with 175 billion parameters as measured on the BEIR search benchmark. Code, models and result files are freely available at https://github.com/Muennighoff/sgpt.

연구 동기 및 목표

  • 의미 검색과 문장 임베딩을 위해 디코더-전용 트랜스포머의 사용을 동기 부여한다.
  • SGPT-BE (Bi-Encoder)와 함께 위치 가중 풀링을 적용하고 BitFit 편향-전용 미세조정으로 개발한다.
  • 사전 학습된 GPT 모델에서 로그 확률 추출을 이용하여 SGPT-CE (Cross-Encoder)를 개발한다.
  • 비대칭 및 대칭 검색 작업 전반에 걸쳐 BEIR 및 USEB 벤치마크에서 SGPT 변형을 평가한다.
  • 실무자를 위한 자원 풍부한 오픈소스 코드와 모델을 제공한다.

제안 방법

  • 의미 검색을 위해 디코더-전용 트랜스포머를 사용하여 문장 임베딩을 생성한다.
  • SGPT-BE에서, 히든 스테이트에 위치 가중 평균 풀링을 적용한다.
  • 나머지 모델은 고정하고 오직 편향 매개변수(BitFit)만 미세조정한다.
  • SGPT-CE에서, 프롬프팅을 통해 사전 학습된 GPT 모델의 로그 확률을 추출하여 비지도 크로스-엔코더 점수를 얻는다.
  • 비대칭 및 대칭 검색 벤치마크(BEIR, USEB)에서 평가하고 인코더 기반 기준선 및 OpenAI 엔드포인트와 비교한다.

실험 결과

연구 질문

  • RQ1selective fine-tuning으로 디코더-전용 GPT 모델이 의미 검색을 위한 경쟁력 있는 문장 임베딩을 생성할 수 있는가?
  • RQ2의미 검색에서 GPT 기반 Bi-Encoders에 가장 적합한 임베딩을 어떤 풀링 전략이 제공하는가?
  • RQ3비편향 미세조정(BitFit)이 SGPT-BE에서 전체 미세조정과 SBERT 기준선과 비교하여 어떤 차이가 있는가?
  • RQ4BEIR 및 USEB 데이터셋에서 모델 크기가 커질수록 SGPT-CE와 SGPT-BE의 성능은 어떻게 규모화되는가?

주요 결과

  • 위치 가중 평균 풀링과 BitFit를 적용한 SGPT-BE-5.8B가 BEIR 및 USEB에서 문장 임베딩 중 크기와 설정에 따라 최첨단 성능을 달성했다.
  • 로그 확률과 프롬프트를 사용하는 SGPT-CE-6.1B는 BEIR에서 비지도 최첨단 성능을 달성하였으나 매개변수 수가 많아 대기시간이 증가한다.
  • 5.8B 매개변수에서 SGPT-BE는 이전 최상 문장 임베딩보다 임베딩 품질에서 약 7%의 향상을 달성한다.
  • SGPT-CE-6.1B는 재정렬 Top-100의 최대 가능한 성능의 약 80%에 도달하여 재정렬 병목에서 규모의 이점을 보여준다.
  • OpenAI 엔드포인트와 비교하여, SGPT 변형은 많은 BEIR 및 USEB 태스크에서 경쟁력 있거나 우수한 결과를 제공하며 오픈소스 대안과 프롬프트 및 재정렬 전략에 대한 완전한 제어를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.