Skip to main content
QUICK REVIEW

[논문 리뷰] Finding Support Examples for In-Context Learning

Xiaonan Li, Xipeng Qiu|arXiv (Cornell University)|2023. 02. 27.
Topic Modeling인용 수 7
한 줄 요약

이 논문은 in-context learning에서 작업 대표 지원 예시를 선택하기 위한 두 단계 필터-후-검색 방법인 LENS를 소개합니다. 이는 기준선 및 기존 코어셋 방법보다 성능을 향상시키며, 먼저 InfoScore를 사용해 개별적으로 정보성이 높은 예시를 필터링하고, 그다음 다양성 가이드 검색으로 성능 좋은 예시 순서를 찾습니다.

ABSTRACT

Additionally, the strong dependency among in-context examples makes it an NP-hard combinatorial optimization problem and enumerating all permutations is infeasible. Hence we propose LENS, a fiLter-thEN-Search method to tackle this challenge in two stages: First we filter the dataset to obtain informative in-context examples individually. Specifically, we propose a novel metric, InfoScore, to evaluate the example's in-context informativeness based on the language model's feedback, and further propose a progressive filtering process to filter out uninformative examples. Then we propose diversity-guided example search which iteratively refines and evaluates the selected example permutations, to find examples that fully depict the task. The experimental results show that LENS significantly outperforms a wide range of baselines.

연구 동기 및 목표

  • ICL에서 작업 대표 지원 예시를 선택하는 문제를 정의한다.
  • 주석 데이터에서 정보적이고 다양한 in-context 예시를 식별하기 위한 두 단계 방법을 제안한다.
  • 해당 방법이 여러 텍스트 분류 작업에서 기준선 및 이전 코어셋 접근법보다 우수함을 보여준다.
  • 지원 예시의 순서 민감도 및 모델 간 전달성 등 속성을 분석한다.
  • 향후 ICL 전용 예시 선택 연구에 대한 통찰과 잠재적 방향을 제시한다.

제안 방법

  • 1단계: InfoScore를 사용한 정보적 예시 필터링으로, 언어 모델 피드백에 기반하여 맥락 내 정보성을 측정한다.
  • 데이터의 증가하는 부분 집합에 대해 InfoScore를 효율적으로 계산하기 위한 점진적 필터링.
  • 2단계: 다양성 가이드 예시 검색으로, 필터링된 예시의 순서를 빔 탐색 방식으로 다듬고 평가하며 다양성 고려(s(e,E') 및 f(e))를 포함한다.
  • GPT2-L에서의 평가 및 GPT2-M, GPT2-XL, GPT-Neo-2.7B에 걸친 전달 테스트.
  • 순서 효과를 완화하기 위해 순열 선택을 안내하는 소규모 검증 세트와 무작위 셔플을 사용한다.
  • ICL 예시 선택의 NP-hard 조합 문제 성격을 다루기 위한 2단계 설계에 근거한다.
  • 지지 예시와 무작위 예시 간의 실제 라벨의 중요성 분석.

실험 결과

연구 질문

  • RQ1두 단계의 필터링-그다음 검색 접근 방식이 ICL에서 작업 대표 지원 예시를 신뢰하게 식별할 수 있는가?
  • RQ2지지 예시가 무작위 샘플에 비해 맥락 내 순서에 대한 민감도를 줄이는가?
  • RQ3지지 예시의 실제 라벨과 입력 구조가 ICL 성능에 결정적인가?
  • RQ4다른 크기와 사전 학습 코퍼스를 가진 모델 간에 지지 예시가 효과적으로 전달되는가?
  • RQ5하이퍼파라미터가 성능과 강건성에 어떤 영향을 미치는가?

주요 결과

  • LENS는 GPT2-L를 사용한 다수의 텍스트 분류 데이터셋에서 광범위한 기준선보다 현저하게 우수한 성과를 보인다.
  • 지지 예시가 무작위 예시보다 서로 다른 순서에서도 더 안정적인 성능을 보인다.
  • 지지 예시의 실제 라벨이 중요하며, 무작위 예시는 라벨에 대한 민감도가 덜하다.
  • 지지 예시는 서로 다른 LM(GPT2-M, GPT2-XL, GPT-Neo-2.7B) 간에 효과적으로 전달된다.
  • 코어셋 스타일의 gradient 기반 방법은 ICL에서 무작위 기준선보다 미미한 이득을 제공하며, ICL 특화 전략의 필요성을 강조한다.
  • 두 단계 접근법(InfoScore 필터링과 다양성 가이드 검색)은 필수적이다; 두 번째 단계를 제거하면 성능이 저하되며, 순열 선택에서 다양성의 가치를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.