QUICK REVIEW

[논문 리뷰] Finding Support Examples for In-Context Learning

Xiaonan Li, Xipeng Qiu|arXiv (Cornell University)|2023. 02. 27.

Topic Modeling인용 수 7

한 줄 요약

이 논문은 in-context learning에서 작업 대표 지원 예시를 선택하기 위한 두 단계 필터-후-검색 방법인 LENS를 소개합니다. 이는 기준선 및 기존 코어셋 방법보다 성능을 향상시키며, 먼저 InfoScore를 사용해 개별적으로 정보성이 높은 예시를 필터링하고, 그다음 다양성 가이드 검색으로 성능 좋은 예시 순서를 찾습니다.

ABSTRACT

Additionally, the strong dependency among in-context examples makes it an NP-hard combinatorial optimization problem and enumerating all permutations is infeasible. Hence we propose LENS, a fiLter-thEN-Search method to tackle this challenge in two stages: First we filter the dataset to obtain informative in-context examples individually. Specifically, we propose a novel metric, InfoScore, to evaluate the example's in-context informativeness based on the language model's feedback, and further propose a progressive filtering process to filter out uninformative examples. Then we propose diversity-guided example search which iteratively refines and evaluates the selected example permutations, to find examples that fully depict the task. The experimental results show that LENS significantly outperforms a wide range of baselines.

연구 동기 및 목표

ICL에서 작업 대표 지원 예시를 선택하는 문제를 정의한다.
주석 데이터에서 정보적이고 다양한 in-context 예시를 식별하기 위한 두 단계 방법을 제안한다.
해당 방법이 여러 텍스트 분류 작업에서 기준선 및 이전 코어셋 접근법보다 우수함을 보여준다.
지원 예시의 순서 민감도 및 모델 간 전달성 등 속성을 분석한다.
향후 ICL 전용 예시 선택 연구에 대한 통찰과 잠재적 방향을 제시한다.

제안 방법

1단계: InfoScore를 사용한 정보적 예시 필터링으로, 언어 모델 피드백에 기반하여 맥락 내 정보성을 측정한다.
데이터의 증가하는 부분 집합에 대해 InfoScore를 효율적으로 계산하기 위한 점진적 필터링.
2단계: 다양성 가이드 예시 검색으로, 필터링된 예시의 순서를 빔 탐색 방식으로 다듬고 평가하며 다양성 고려(s(e,E') 및 f(e))를 포함한다.
GPT2-L에서의 평가 및 GPT2-M, GPT2-XL, GPT-Neo-2.7B에 걸친 전달 테스트.
순서 효과를 완화하기 위해 순열 선택을 안내하는 소규모 검증 세트와 무작위 셔플을 사용한다.
ICL 예시 선택의 NP-hard 조합 문제 성격을 다루기 위한 2단계 설계에 근거한다.
지지 예시와 무작위 예시 간의 실제 라벨의 중요성 분석.

실험 결과

연구 질문

RQ1두 단계의 필터링-그다음 검색 접근 방식이 ICL에서 작업 대표 지원 예시를 신뢰하게 식별할 수 있는가?
RQ2지지 예시가 무작위 샘플에 비해 맥락 내 순서에 대한 민감도를 줄이는가?
RQ3지지 예시의 실제 라벨과 입력 구조가 ICL 성능에 결정적인가?
RQ4다른 크기와 사전 학습 코퍼스를 가진 모델 간에 지지 예시가 효과적으로 전달되는가?
RQ5하이퍼파라미터가 성능과 강건성에 어떤 영향을 미치는가?

주요 결과

LENS는 GPT2-L를 사용한 다수의 텍스트 분류 데이터셋에서 광범위한 기준선보다 현저하게 우수한 성과를 보인다.
지지 예시가 무작위 예시보다 서로 다른 순서에서도 더 안정적인 성능을 보인다.
지지 예시의 실제 라벨이 중요하며, 무작위 예시는 라벨에 대한 민감도가 덜하다.
지지 예시는 서로 다른 LM(GPT2-M, GPT2-XL, GPT-Neo-2.7B) 간에 효과적으로 전달된다.
코어셋 스타일의 gradient 기반 방법은 ICL에서 무작위 기준선보다 미미한 이득을 제공하며, ICL 특화 전략의 필요성을 강조한다.
두 단계 접근법(InfoScore 필터링과 다양성 가이드 검색)은 필수적이다; 두 번째 단계를 제거하면 성능이 저하되며, 순열 선택에서 다양성의 가치를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.