QUICK REVIEW

[논문 리뷰] Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners

Ningyu Zhang, Luoqiu Li|arXiv (Cornell University)|2021. 08. 30.

Topic Modeling참고 문헌 46인용 수 75

한 줄 요약

DART는 differentiable prompt 및 label optimization을 도입하여 소형 언어 모델을 강력한 few-shot 학습기로 변환하고, 표준 파인튜닝 대비 뚜렷한 향상과 15개의 NLP 태스크에서 최신 프롬프트 튜닝 방법들과 경쟁력 있는 결과를 달성합니다.

ABSTRACT

Large-scale pre-trained language models have contributed significantly to natural language processing by demonstrating remarkable abilities as few-shot learners. However, their effectiveness depends mainly on scaling the model parameters and prompt design, hindering their implementation in most real-world applications. This study proposes a novel pluggable, extensible, and efficient approach named DifferentiAble pRompT (DART), which can convert small language models into better few-shot learners without any prompt engineering. The main principle behind this approach involves reformulating potential natural language processing tasks into the task of a pre-trained language model and differentially optimizing the prompt template as well as the target label with backpropagation. Furthermore, the proposed approach can be: (i) Plugged to any pre-trained language models; (ii) Extended to widespread classification tasks. A comprehensive evaluation of standard NLP tasks demonstrates that the proposed approach achieves a better few-shot performance. Code is available in https://github.com/zjunlp/DART.

연구 동기 및 목표

대규모 프롬팅의 한계를 극복하고 작은 LMs에 대한 효율적이고 플러그인 가능한 few-shot 학습을 가능하게 한다.
연속 공간에서 프롬프트 템플릿과 레이블을 최적화하는 DifferentiAble pRompT (DART)를 제안한다.
모델에 독립적인 적용 가능성과 광범위한 분류 태스크로의 확장성을 보장한다.
auxiliary fluency 제약을 통해 few-shot 학습의 안정화를 도모한다.
복합적인 레이블 공간을 갖는 태스크를 포함하여 15개의 NLP 데이터셋에서의 개선을 실증적으로 보여준다.

제안 방법

차분 가능한 템플릿을 구성하고 모델 매개변수를 추가하지 않고 역전파를 통해 최적화하기 위해 의사 토큰을 사용한다.
사전 훈련된 임베딩으로 레이블을 연속 공간에서 표현하고 어휘의 사용되지 않는 토큰에 매핑하여 외부 매개변수 최적화를 피한다.
프롬프트 임베딩 간의 상호 의존성을 강화하고 언어 모델의 유창성을 유지하기 위한 보조 유창성 제약을 도입한다.
클래스 구별력(교차 엔트로피)과 유창성 제약(이진 교차 엔트로피)을 결합한 결합 손실을 최적화한다.
다양한 PLM(RoBERTa-large, GPT-2-medium 등)과의 플러그인 호환성 및 관계 추출, 이벤트 추출과 같은 태스크로의 확장성을 보여준다.
전통적인 파인튜닝 및 LM-BFF 스타일의 프롬프트 튜닝과 비교하여 소수 샷 설정에서의 성능 향상을 강조한다.

실험 결과

연구 질문

RQ1작은~중간 규모의 사전학습된 언어 모델을 사용할 때 differentiable prompt 및 label 최적화가 few-shot 학습을 향상시킬 수 있는가?
RQ2프롬프트 고정과 비교하여 템플릿 임베딩과 레이블 임베딩을 유창성 제약과 함께 공동 최적화하면 더 구별되는 표현이 생성되는가?
RQ3DART 접근법이 다양한 NLP 태스크 및 레이블 공간에서 플러그인 가능하고 모델에 독립적인가?
RQ4복합적인 레이블 의미를 가진 태스크(예: 관계 추출, 이벤트 추출)에서 DART의 성능은 표준 파인튜닝 및 기존 프롬프트 튜닝 방법과 비교해 어떤가?

주요 결과

Dataset	모델	K=8	K=16	K=32	전체
SemEval	Fine-tuning	26.3	43.8	64.2	87.8
SemEval	LM-BFF	43.2	62.0	72.9	88.0
SemEval	DART	51.8	67.2	77.3	89.1
TACRED-Revisit	Fine-tuning	7.4	15.5	25.8	75.0
TACRED-Revisit	LM-BFF	21.0	23.7	27.1	76.4
TACRED-Revisit	DART	25.8	30.1	31.8	77.8
Wiki80	Fine-tuning	46.3	60.3	70.0	87.5
Wiki80	LM-BFF	66.5	73.5	78.1	86.2
Wiki80	DART	68.5	75.2	79.4	88.1
ChemProt	Fine-tuning	30.2	41.5	52.5	79.5
ChemProt	LM-BFF	55.0	56.1	60.0	79.1
ChemProt	DART	57.2	60.8	63.1	81.0

DART는 15개의 NLP 데이터셋에서 소수 샷 설정에서 일관되게 기존 파인튜닝보다 우수한 성능을 보이며(예: 관계 추출 데이터셋에서 절대적 향상 최대 23.28%에 달함).
DART는 LM-BFF와 경쟁력 있는 결과를 달성하고, 레이블이 복합 의미를 가질 때 특히 P-튜닝을 상회한다.
많은 클래스가 있는 관계 추출 및 이벤트 추출에서 소수 샷 및 전체 데이터 설정 모두에서 상당한 이득을 보인다(예: TACRED-Revisit, Wiki80, ChemProt).
일부 구성 요소의 제거(유창성 제약, 차분 가능한 템플릿, 차분 가능한 레이블)가 성능에 기여하며, 특히 저자원 환경에서 차분 가능한 레이블 최적화가 큰 영향을 미친다.
시각화 분석은 차분 가능한 프롬프트가 고정 프롬프트보다 더 구별되고 축소된 표현을 생성함을 보여주며 정확도 향상과 상관관계가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.