[논문 리뷰] Making Pre-trained Language Models Better Few-shot Learners
LM-BFF는 프롬프트 기반 미세조정, 자동 프롬프트 생성, 선택적 시演을 결합하여 중형 언어 모델의 few-shot 학습을 크게 개선하고 표준 미세조정보다 최대 30%의 절대 이득을 달성합니다. RoBERTa-large를 사용한 분류 및 회귀에서 few-shot 설정에서도 강력한 태스크-자립적 성능을 보입니다.
The recent GPT-3 model (Brown et al., 2020) achieves remarkable few-shot performance solely by leveraging a natural-language prompt and a few task demonstrations as input context. Inspired by their findings, we study few-shot learning in a more practical scenario, where we use smaller language models for which fine-tuning is computationally efficient. We present LM-BFF--better few-shot fine-tuning of language models--a suite of simple and complementary techniques for fine-tuning language models on a small number of annotated examples. Our approach includes (1) prompt-based fine-tuning together with a novel pipeline for automating prompt generation; and (2) a refined strategy for dynamically and selectively incorporating demonstrations into each context. Finally, we present a systematic evaluation for analyzing few-shot performance on a range of NLP tasks, including classification and regression. Our experiments demonstrate that our methods combine to dramatically outperform standard fine-tuning procedures in this low resource setting, achieving up to 30% absolute improvement, and 11% on average across all tasks. Our approach makes minimal assumptions on task resources and domain expertise, and hence constitutes a strong task-agnostic method for few-shot learning.
연구 동기 및 목표
- GPT-3와 같은 거대 모델 대신 중형 LMs(예: RoBERTa/BERT)를 사용한 실용적 few-shot 학습의 필요성을 제시한다.
- 적은 데이터로 미세조정을 개선하기 위한 태스크-자립적이고 간단한 기법 세트를 개발한다.
- 다양한 NLP 태스크(분류 및 회귀)에서 프롬프트 기반 미세조정 및 시演 전략을 평가한다.
- 수동 엔지니어링을 줄이기 위한 프롬프트와 시演 생성을 위한 자동화된 워크플로우를 제공한다.
제안 방법
- 라벨 단어를 가지는 마스킹된 언어 모델링으로 하위 작업을 다루는 프롬프트 기반 미세조정.
- 자동 프롬프트 생성: (i) 라벨 단어(verbalizers)의 자동 선택 및 (ii) T5 기반 검색을 사용한 템플릿의 자동 생성.
- 동적이고 선택적인 데모(시演)는 각 클래스당 하나의 예제를 샘플링하여 입력과 함께 매핑하여 최소한의 시演 세트를 구성한다.
- 안정성을 평가하기 위해 여러 임의 분할을 사용한 8 개의 단일 문장 태스크와 7 개의 문장-쌍 태스크에 대한 체계적인 평가.
- few-shot 설정에서 표준 미세조정 및 GPT-3 스타일의 인-컨텍스트 학습과의 비교.
실험 결과
연구 질문
- RQ1자동으로 생성된 프롬프트를 가진 프롬프트 기반 미세조정이 few-shot regime에서 수동으로 설계된 프롬프트에 필적하거나 이를 능가할 수 있는가?
- RQ2신중한 샘플링을 포함한 시演의 도입이 중형 LMs의 표준 미세조정을 넘어 성능을 개선하는가?
- RQ3자동 라벨 단어 선택과 템플릿 자동 생성이 태스크(분류 및 회귀) 전반에서 강인한 few-shot 학습에 어떻게 기여하는가?
- RQ4시演 샘플링 전략과 템플릿 품질이 few-shot 성능에 미치는 영향은 무엇인가?
- RQ5해당 접근법이 태스크-자립적이며 자원 효율적이어서 실제 활용에 충분한가?
주요 결과
- 프롬프트 기반 미세조정은 few-shot 설정에서 표준 미세조정을 상당히 능가한다.
- 자동 프롬프트 생성(템플릿 및 라벨 단어)은 여러 태스크에서 수동 프롬프트와 동등하거나 우수하게 성능을 발휘할 수 있다.
- 신중하게 설계된 샘플링 전략을 가진 시演의 도입은 few-shot 성능에 추가 이득을 준다.
- 결합된 LM-BFF 방법은 평가된 태스크들에서 최대 30%의 절대 개선과 평균 11%의 개선을 달성한다.
- RoBERTa-large에서 32개의 학습 예제로 많은 이진 SST-2 유사 태스크가 약 90% 정확도에 도달한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.