QUICK REVIEW

[논문 리뷰] Scaling Sentence Embeddings with Large Language Models

Ting Jiang, Shaohan Huang|arXiv (Cornell University)|2023. 07. 31.

Topic Modeling인용 수 9

한 줄 요약

이 논문은 PromptEOL을 이용한 컨텍스트 내 학습이 파인 튜닝 없이 LLM으로부터 고품질 문장 임베딩을 생성할 수 있음을 보여주며, 확장이 STS 전이 작업에 도움이 되지만 결국 STS 이익을 해칠 수 있음을 시사한다; 효율적인 파인 튜닝과 결합하면 최첨단 결과를 달성한다.

ABSTRACT

Large language models (LLMs) have recently garnered significant interest. With in-context learning, LLMs achieve impressive results in various natural language tasks. However, the application of LLMs to sentence embeddings remains an area of ongoing research. In this work, we propose an in-context learning-based method aimed at improving sentence embeddings performance. Our approach involves adapting the previous prompt-based representation method for autoregressive models, constructing a demonstration set that enables LLMs to perform in-context learning, and scaling up the LLMs to different model sizes. Through extensive experiments, in-context learning enables LLMs to generate high-quality sentence embeddings without any fine-tuning. It helps LLMs achieve performance comparable to current contrastive learning methods. By scaling model size, we find scaling to more than tens of billion parameters harms the performance on semantic textual similarity (STS) tasks. However, the largest model outperforms other counterparts and achieves the new state-of-the-art result on transfer tasks. We also fine-tune LLMs with current contrastive learning approach, and the 2.7B OPT model, incorporating our prompt-based method, surpasses the performance of 4.8B ST5, achieving the new state-of-the-art results on STS tasks. Our code is available at https://github.com/kongds/scaling_sentemb.

연구 동기 및 목표

전통적인 인코더 기반 방법을 넘어 문장 임베딩에 LLM의 활용 동기를 제시한다.
자 자동회귀 LLM에 맞춘 프롬프트 기반 표현을 조사한다.
STS 및 전이 작업에 대한 모델 규모의 영향을 평가한다.
전체 파인 튜닝 없이 임베딩을 개선하기 위한 방향으로 컨텍스트 내 학습과 효율적 파인 튜닝을 탐구한다.

제안 방법

자동회귀 LLM이 문장 임베딩을 생성하기 위해 명시적 한 단어 제한을 갖는 프롬프트 기반 방법인 PromptEOL을 제안한다.
시演 집합을 구성하고 효과적인 시演을 선택해 LLM이 의미 정보를 인코딩하도록 안내하는 컨텍스트 내 학습을 사용한다.
모델 규모가 수백만에서 수십 억 매개변수에 이르는 LLM(OPT 및 LLaMA 계열)의 표현을 평가한다.
파인 튜닝 설정에서 메모리 효율적인 4비트 양자화로 QLoRA를 통해 효율적 대조학습을 적용한다.
프롬프트 기반 표현과 평균화 및 이전 프롬프트 기반 방법과 비교하여 모든 설정에서 PromptEOL의 우수성을 보인다.
대화형 컨텍스트 학습을 위한 시演 자동 생성을 위한 프레임워크를 제공한다(단어 레이블은 ChatGPT 및 사전 기반 쌍을 이용).

실험 결과

연구 질문

RQ1LLM이 파인 튜닝 없이 프롬프트 엔지니어링을 통해 효과적인 문장 임베딩을 생성할 수 있는가?
RQ2컨텍스트 내 학습이 모델 규모에 걸쳐 LLM 기반 문장 임베딩의 품질을 향상시키는가?
RQ3수백만에서 수십 억 개 매개변수로의 확장이 STS 및 전이 작업에 어떤 영향을 미치는가?
RQ4효율적 파인 튜닝과 대조 학습이 LLM 기반 문장 임베딩을 더 향상시킬 수 있는가?

주요 결과

Method	Params	STS12	STS13	STS14	STS15	STS16	STS-B	SICK-R	Avg
SimCSE-BERT	110M	68.40	82.41	74.38	80.91	78.56	76.85	72.23	76.25
SimCSE-RoBERTa	123M	70.16	81.77	73.24	81.36	80.65	80.22	68.56	76.57
PromptBERT	110M	71.56	84.58	76.98	84.47	80.60	81.60	69.87	78.54
PromptRoBERTa	123M	73.94	84.74	77.28	84.99	81.74	81.88	69.50	79.15
BERT avg.	110M	30.87	59.89	47.73	60.29	63.73	47.29	58.22	52.57
BERT prompt	110M	60.96	73.83	62.18	71.54	68.68	70.60	67.16	67.85
ST5-Enc	4.8B	34.97	60.19	47.59	66.40	70.62	62.83	63.57	58.02
PromptEOL OPT	125M	59.90	71.55	60.93	70.76	72.83	67.89	65.14	67.00
350M	350M	54.70	71.52	59.99	64.51	71.39	66.55	66.58	65.03
1.3B	1.3B	64.59	79.06	68.46	78.88	78.64	73.22	69.41	73.18
2.7B	2.7B	60.03	75.51	64.30	74.56	77.62	67.73	65.35	69.30
6.7B	6.7B	60.91	80.05	67.65	75.49	80.11	72.91	67.57	72.10
13B	13B	60.21	81.36	69.69	75.46	79.58	70.73	65.99	71.86
30B	30B	59.99	80.52	69.80	75.20	78.03	73.57	69.87	72.43
66B	66B	55.66	74.62	64.90	72.34	75.21	71.72	67.43	68.84
PromptEOL+ICL OPT	125M	62.22	73.10	61.84	71.09	72.08	67.80	64.10	67.46
350M	350M	63.87	73.85	63.41	72.45	73.13	70.84	65.61	69.02
1.3B	1.3B	72.78	83.77	73.61	83.42	80.60	78.80	69.69	77.52
2.7B	2.7B	68.49	84.72	75.15	83.62	81.34	80.94	72.97	78.18
6.7B	6.7B	70.65	84.51	75.01	83.51	82.00	81.12	76.77	79.08
13B	13B	71.99	85.22	76.04	82.23	81.38	81.42	75.00	79.04
30B	30B	69.93	83.29	74.88	80.10	81.11	81.76	76.26	78.19
66B	66B	69.93	83.29	74.88	80.10	81.11	81.76	76.26	78.19

컨텍스트 내 학습은 파인 튜닝 없이 LLM으로부터 고품질 문장 임베딩을 가능하게 하며, 대조 학습 방법과 비교할 만한 성능을 달성한다.
수십 억 매개변수로의 확장은 STS 결과를 일관되게 향상시키지 않으며, 가장 큰 모델은 전이 작업에서 다른 모델보다 우수하지만 매우 큰 규모는 STS를 추가로 개선하지 못할 수 있다.
PromptEOL은 일반적으로 모델 크기에 관계없이 다른 표현 방법(평균화, 기본 프롬프트)보다 우수하다.
QLoRA와 4비트 양자화를 통한 효율적 파인 튜닝으로 STS 최첨단 결과를 Moderate compute로 달성할 수 있다, 예를 들어 2.7B OPT가 STS 작업에서 4.8B ST5를 능가한다.
파인 튜닝을 사용하면 더 큰 모델(13B OPT, 13B LLaMA)이 최고 STS 결과를 얻는 반면, 매우 큰 모델은 전이 작업 성능을 계속 향상시킨다.
PromptEOL+ICL은 작은 모델에서도 강한 STS 이익을 보이고, 더 큰 모델은 시演으로부터의 이익이 증폭된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.