[논문 리뷰] Selective Annotation Makes Language Models Better Few-Shot Learners
이 논문은 그래프 기반의 vote-k 방법으로 선택적 주석 달기와 프롬프트 검색의 두 단계 프레임워크를 제시하여, 시험 전에 소수의 unlabeled 예제를 주석 달기로 선택하고 컨텍스트 학습 성능을 10개 데이터셋 전반에서 향상시키며, 주석 비용을 크게 줄이고 미세조정 성능은 경쟁력 있게 만든다.
Many recent approaches to natural language tasks are built on the remarkable abilities of large language models. Large language models can perform in-context learning, where they learn a new task from a few task demonstrations, without any parameter updates. This work examines the implications of in-context learning for the creation of datasets for new natural language tasks. Departing from recent in-context learning methods, we formulate an annotation-efficient, two-step framework: selective annotation that chooses a pool of examples to annotate from unlabeled data in advance, followed by prompt retrieval that retrieves task examples from the annotated pool at test time. Based on this framework, we propose an unsupervised, graph-based selective annotation method, voke-k, to select diverse, representative examples to annotate. Extensive experiments on 10 datasets (covering classification, commonsense reasoning, dialogue, and text/code generation) demonstrate that our selective annotation method improves the task performance by a large margin. On average, vote-k achieves a 12.9%/11.4% relative gain under an annotation budget of 18/100, as compared to randomly selecting examples to annotate. Compared to state-of-the-art supervised finetuning approaches, it yields similar performance with 10-100x less annotation cost across 10 tasks. We further analyze the effectiveness of our framework in various scenarios: language models with varying sizes, alternative selective annotation methods, and cases where there is a test data domain shift. We hope that our studies will serve as a basis for data annotations as large language models are increasingly applied to new tasks. Our code is available at https://github.com/HKUNLP/icl-selective-annotation.
연구 동기 및 목표
- 새 NLP 작업에서 수동 주석 비용을 줄이면서도 높은 컨텍스트 학습 성능을 유지한다.
- 테스트 시점 이전에 작고 다양한 대표적인 주석 풀을 선택하는 방법을 조사한다.
- 다양한 작업과 모델 규모에 걸친 선택적 주석 달기와 프롬프트 검색의 영향을 평가한다.
- 제한된 주석 하에서 도메인 시프트에 대한 강건성과 파인튜닝과의 비교를 분석한다.
제안 방법
- 두 단계 프레임워크를 제안한다: 작은 비주석 풀의 선택적 주석 달기와 테스트 시점에서 주석 풀에서의 프롬프트 검색을 따른다.
- 다양성 및 대표성을 촉진하는 비지도 그래프 기반 선택적 주석 방법인 vote-k를 도입한다. 이는 Sentence-BERT 공간에서 k-NN 그래프를 구성하고 유사도 점수를 감소시키며 반복적으로 주석 예시를 선택한다.
- 각 테스트 인스턴스에 대해 코사인 유사도 기반으로 가장 유사한 주석 예시를 검색하여 컨텍스트 프롬프트를 계산한다.
- 분류, 상식 추론, 대화, 텍스트/코드 생성에 걸친 10개 데이터셋과 2B~175B 파라미터 모델로 평가한다.
- 주석의 효율성과 강건성을 평가하기 위해 무작위 주석, 다른 선택적 방법, 파인튜닝과 비교한다.
실험 결과
연구 질문
- RQ1선택적 주석 달기가 다양한 NLP 작업에서 효과적인 컨텍스트 학습에 필요한 주석 비용을 줄일 수 있는가?
- RQ2vote-k 방법이 다양성과 대표성을 어떻게 균형 있게 조정하여 프롬프트 검색 성능을 향상시키는가?
- RQ3선택적 주석 달기와 프롬프트 검색은 언어 모델의 크기와 도메인 시프트 하에서 지속적으로 효과적인가?
- RQ4제한된 주석 예산 하에서 선택적 주석 달기와 습득 기반 학습이 감독 학습 파인튜닝과 비교하여 얼마나 경쟁적인가?
- RQ5유사도 기반 프롬프트 검색과 무작위 검색의 성능 차이가 무엇인가?
주요 결과
- vote-k 선택적 주석 달기는 10개 과제에서 무작위 주석 대비 상당한 성능 향상을 보이며 예산 18에서 상대 증가 12.9%, 예산 100에서 11.4%를 달성한다.
- 18개의 주석 샘플이 몇몇 작업에서 100개를 무작위로 선택한 주석과 동등하거나 그 이상 성능을 보이며, 전반적으로 vote-k는 2B~175B 규모의 모델에서 강건한 이득을 보여준다.
- vote-k와 유사도 기반 프롬프트 검색을 결합하면 10개 작업에서 주석 비용을 10~100배 덜 들이고도 최첨단 파인튜닝 성능에 도달하거나 이를 상회한다.
- 선택적 주석 달기는 무주석 데이터의 무작위성 및 도메인 시프트 하에서 컨텍스트 학습의 분산을 줄이고 안정성을 향상시킨다.
- 무작위 프롬프트 검색을 사용할 때는 vote-k의 이점이 거의 없으며, 주석 데이터를 활용하는 데 있어 유사도 기반 검색의 중요성을 강조한다.
- 표준 파인튜닝과 비교할 때, vote-k를 이용한 컨텍스트 학습은 동등한 성능을 달성하기 위해 훨씬 더 적은 수의 라벨 예시가 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.