[논문 리뷰] Learning to Retrieve In-Context Examples for Large Language Models
본 논문은 LLM-R을 제시한다. 이는 LLM-정보 보상 모델로부터 지식을 추출하여 대형 언어 모델을 위한 맥락 내 예시를 고품질로 선택하는 조밀한 검색기를 학습하는 반복적 프레임워크이다.
Large language models (LLMs) have demonstrated their ability to learn in-context, allowing them to perform various tasks based on a few input-output examples. However, the effectiveness of in-context learning is heavily reliant on the quality of the selected examples. In this paper, we propose a novel framework to iteratively train dense retrievers that can identify high-quality in-context examples for LLMs. Our framework initially trains a reward model based on LLM feedback to evaluate the quality of candidate examples, followed by knowledge distillation to train a bi-encoder based dense retriever. Our experiments on a suite of $30$ tasks demonstrate that our framework significantly enhances in-context learning performance. Furthermore, we show the generalization ability of our framework to unseen tasks during training. An in-depth analysis reveals that our model improves performance by retrieving examples with similar patterns, and the gains are consistent across LLMs of varying sizes. The code and data are available at https://github.com/microsoft/LMOps/tree/main/llm_retriever .
연구 동기 및 목표
- LLMs가 맥락 내 예시에 대한 민감성 및 품질 인식 기반 검색의 필요성을 동기화하고 분석한다.
- LLM 피드백을 이용해 고밀도 검색기를 학습하는 반복적 프레임워크(LLM-R)를 제안한다.
- LLM-R가 다양한 작업과 다양한 LLM 크기에 걸쳐 맥락 내 학습을 개선함을 보여준다.
- 검색된 예시가 테스트 사례의 입력 패턴이나 라벨을 공유하는 경향이 있고, 보지 않은 작업으로 일반화된다.
제안 방법
- 작업 혼합 풀에서 BM25를 이용한 초기 후보 검색.
- 시험 입력 및 후보에 대해 LLM의 실제 로그 가능도를 기준으로 후보를 순위화한다.
- 실제 라벨과 하드 네거티브를 사용하여 후보 품질을 점수화하도록 cross-encoder 보상 모델을 학습한다.
- KL-발산을 이용한 하드 네거티브와 InfoNCE 대비 손실을 포함하여 보상 모델을 모방하도록 bi-encoder 조밀한 검색기를 지식 증류로 학습한다.
- 새로 검색된 양성/음성 예를 사용해 조밀한 검색기를 반복적으로 재학습하여 품질을 향상시킨다.

실험 결과
연구 질문
- RQ1LLM 피드백으로 안내되는 학습된 조밀한 검색기가 맥락 내 예시를 선택하는 데 있어 휴리스틱 기준선을 능가할 수 있는가?
- RQ2보상 모델 감독 하에 반복적으로 재학습하는 것이 다중 작업과 다양한 LLM 크기에 걸쳐 ICL를 향상시키는가?
- RQ3이 접근 방식은 보지 않은 작업과 다른 LLM에 얼마나 잘 일반화되는가?
- RQ4어떤 요인들(작업 유형, 데이터 패턴, 작업 난이도)이 검색된 맥락 예시의 효과에 영향을 미치는가?
주요 결과
| CQA | Comm. | Coref. | NLI | Para. | RC | Sent. | D2T | Summ. | Avg |
|---|---|---|---|---|---|---|---|---|---|
| 48.8 | 80.1 | 67.6 | 71.9 | 66.5 | 60.0 | 93.5 | 50.1 | 50.8 | 65.7 |
| 48.7 | 80.4 | 70.4 | 72.5 | 71.5 | 59.0 | 93.6 | 49.9 | 51.1 | 66.5 |
| 48.9 | 80.0 | 70.8 | 72.6 | 72.8 | 58.0 | 92.9 | 49.8 | 50.8 | 66.4 |
- LLM-R은 30개 작업에서 일관되게 baseline(무작위, k-means, BM25, E5, SBERT, EPR)을 상회하며, 1회 반복 후 평균 65.7, 2회 반복 후 66.5를 기록한다.
- 반복적 학습은 두 번의 반복 이후 수익이 감소하는 이득을 보여주며 수렴을 시사한다.
- 보상 모델 기반의 증류가 보상 모델이 없는 변형에 비해 성능에 상당한 기여를 한다.
- LLM-R은 보류 작업과 서로 다른 LLM들(GPT-Neo-2.7B, LLaMA-13B, GPT-3.5-turbo)로 일반화되며, 특히 작은 LLM에서 주목할 만한 이득이 있다.
- 상위 검색 예시들은 테스트와 입력 패턴 또는 동일한 라벨을 공유하는 경향이 있으며, 지식 집약적 작업에서 절대 이득이 더 작다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.