QUICK REVIEW

[논문 리뷰] Entailment as Few-Shot Learner

Sinong Wang, Fang Han|arXiv (Cornell University)|2021. 04. 29.

Topic Modeling참고 문헌 46인용 수 106

한 줄 요약

본 논문은 NLP 분류 과제를 텍스트적 함의(entailment) 문제로 전환하여 소형 언어 모델로 패샷(few-shot) 학습을 가능하게 하는 EFL을 제안하고, 18개 태스크와 다국어 설정에서 강력한 성능을 달성한다.

ABSTRACT

Large pre-trained language models (LMs) have demonstrated remarkable ability as few-shot learners. However, their success hinges largely on scaling model parameters to a degree that makes it challenging to train and serve. In this paper, we propose a new approach, named as EFL, that can turn small LMs into better few-shot learners. The key idea of this approach is to reformulate potential NLP task into an entailment one, and then fine-tune the model with as little as 8 examples. We further demonstrate our proposed method can be: (i) naturally combined with an unsupervised contrastive learning-based data augmentation method; (ii) easily extended to multilingual few-shot learning. A systematic evaluation on 18 standard NLP tasks demonstrates that this approach improves the various existing SOTA few-shot learning methods by 12\%, and yields competitive few-shot performance with 500 times larger models, such as GPT-3.

연구 동기 및 목표

NLP 태스크를 함의(entailment)로 재정의하는 것이 소형 LM으로 효과적인 패샷 학습을 가능하게 한다는 것을 입증한다.
EFL이 대조적 데이터 증강과 결합되어 성능을 개선할 수 있음을 보인다.
다국어 패샷 학습에 EFL을 확장하고 언어 간 전이(cross-language transfer)를 평가한다.

제안 방법

클래스 레이블을 자연어 설명으로 변환하여 분류/회귀 태스크를 텍스트 기반 함의로 재정의한다.
클래스당 K=8의 소규모 데이터셋으로 함의 형식에 대해 사전 학습된 LM을 파인튜닝한다.
다운스트림 파인튜닝(EFL) 전에 MNLI(함의 태스크)로 선택적으로 사전 학습한다.
새로운 함의 스타일의 학습 쌍을 생성하기 위해 비지도 대조 데이터 증강(UCA)으로 강화한다.
GLUE, SNLI, BoolQ 등을 포함한 18개 NLP 태스크에서 RoBERTa-large를 사용해 평가한다.
데이터 소스로 XLM-R와 MNLI/XNLI를 사용하여 다국어 시나리오로 평가를 확장한다.

실험 결과

연구 질문

RQ1전통적인 파인튜닝 대신 태스크를 함의로 재구성함으로써 소형 언어 모델을 패샷 학습자로서 급격히 개선할 수 있는가?
RQ2제한된 라벨 데이터로도 함의 기반 파인튜닝이 다양한 태스크와 언어에 잘 전이되는가?
RQ3레이블 설명이 함의 기반 패샷 성능에 미치는 영향은 무엇인가?
RQ4EFL이 데이터 증강 기법 및 다국어 학습 체계와 어떻게 상호 작용하는가?

주요 결과

EFL은 표준 파인튜닝, LM-BFF, Stilts-NLI, Stilts-Close에 비해 패샷 성능을 크게 향상시키며 15개 태스크에서 평균 8.2%의 향상을 기록한다.
EFL은 GPT-3와 같은 500배 더 큰 모델과 유사한 성능을 패샷 설정에서 달성한다.
비지도 대조 데이터 증강(UCA)이 추가로 성능을 향상시켜 15개 태스크에서 평균 약 2.7포인트 향상을 보인다.
XLM-R를 이용한 다국어 EFL은 표준 파인튜닝에 비해 상당한 향상을 보이며 7개 태스크에서 평균 이득이 61.9에서 80.7까지 증가한다.
전체 학습(full-training)에서 RoBERTa-large 파인튜닝 대비 평균 약 1.9포인트의 향상을 보인다.
8-shot 학습을 사용하는 EFL은 때때로 전통적 방법보다 큰 차이로 우수하며, 특히 문장-쌍 태스크에서 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.