[논문 리뷰] Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners
DART는 differentiable prompt 및 label optimization을 도입하여 소형 언어 모델을 강력한 few-shot 학습기로 변환하고, 표준 파인튜닝 대비 뚜렷한 향상과 15개의 NLP 태스크에서 최신 프롬프트 튜닝 방법들과 경쟁력 있는 결과를 달성합니다.
Large-scale pre-trained language models have contributed significantly to natural language processing by demonstrating remarkable abilities as few-shot learners. However, their effectiveness depends mainly on scaling the model parameters and prompt design, hindering their implementation in most real-world applications. This study proposes a novel pluggable, extensible, and efficient approach named DifferentiAble pRompT (DART), which can convert small language models into better few-shot learners without any prompt engineering. The main principle behind this approach involves reformulating potential natural language processing tasks into the task of a pre-trained language model and differentially optimizing the prompt template as well as the target label with backpropagation. Furthermore, the proposed approach can be: (i) Plugged to any pre-trained language models; (ii) Extended to widespread classification tasks. A comprehensive evaluation of standard NLP tasks demonstrates that the proposed approach achieves a better few-shot performance. Code is available in https://github.com/zjunlp/DART.
연구 동기 및 목표
- 대규모 프롬팅의 한계를 극복하고 작은 LMs에 대한 효율적이고 플러그인 가능한 few-shot 학습을 가능하게 한다.
- 연속 공간에서 프롬프트 템플릿과 레이블을 최적화하는 DifferentiAble pRompT (DART)를 제안한다.
- 모델에 독립적인 적용 가능성과 광범위한 분류 태스크로의 확장성을 보장한다.
- auxiliary fluency 제약을 통해 few-shot 학습의 안정화를 도모한다.
- 복합적인 레이블 공간을 갖는 태스크를 포함하여 15개의 NLP 데이터셋에서의 개선을 실증적으로 보여준다.
제안 방법
- 차분 가능한 템플릿을 구성하고 모델 매개변수를 추가하지 않고 역전파를 통해 최적화하기 위해 의사 토큰을 사용한다.
- 사전 훈련된 임베딩으로 레이블을 연속 공간에서 표현하고 어휘의 사용되지 않는 토큰에 매핑하여 외부 매개변수 최적화를 피한다.
- 프롬프트 임베딩 간의 상호 의존성을 강화하고 언어 모델의 유창성을 유지하기 위한 보조 유창성 제약을 도입한다.
- 클래스 구별력(교차 엔트로피)과 유창성 제약(이진 교차 엔트로피)을 결합한 결합 손실을 최적화한다.
- 다양한 PLM(RoBERTa-large, GPT-2-medium 등)과의 플러그인 호환성 및 관계 추출, 이벤트 추출과 같은 태스크로의 확장성을 보여준다.
- 전통적인 파인튜닝 및 LM-BFF 스타일의 프롬프트 튜닝과 비교하여 소수 샷 설정에서의 성능 향상을 강조한다.
실험 결과
연구 질문
- RQ1작은~중간 규모의 사전학습된 언어 모델을 사용할 때 differentiable prompt 및 label 최적화가 few-shot 학습을 향상시킬 수 있는가?
- RQ2프롬프트 고정과 비교하여 템플릿 임베딩과 레이블 임베딩을 유창성 제약과 함께 공동 최적화하면 더 구별되는 표현이 생성되는가?
- RQ3DART 접근법이 다양한 NLP 태스크 및 레이블 공간에서 플러그인 가능하고 모델에 독립적인가?
- RQ4복합적인 레이블 의미를 가진 태스크(예: 관계 추출, 이벤트 추출)에서 DART의 성능은 표준 파인튜닝 및 기존 프롬프트 튜닝 방법과 비교해 어떤가?
주요 결과
| Dataset | 모델 | K=8 | K=16 | K=32 | 전체 |
|---|---|---|---|---|---|
| SemEval | Fine-tuning | 26.3 | 43.8 | 64.2 | 87.8 |
| SemEval | LM-BFF | 43.2 | 62.0 | 72.9 | 88.0 |
| SemEval | DART | 51.8 | 67.2 | 77.3 | 89.1 |
| TACRED-Revisit | Fine-tuning | 7.4 | 15.5 | 25.8 | 75.0 |
| TACRED-Revisit | LM-BFF | 21.0 | 23.7 | 27.1 | 76.4 |
| TACRED-Revisit | DART | 25.8 | 30.1 | 31.8 | 77.8 |
| Wiki80 | Fine-tuning | 46.3 | 60.3 | 70.0 | 87.5 |
| Wiki80 | LM-BFF | 66.5 | 73.5 | 78.1 | 86.2 |
| Wiki80 | DART | 68.5 | 75.2 | 79.4 | 88.1 |
| ChemProt | Fine-tuning | 30.2 | 41.5 | 52.5 | 79.5 |
| ChemProt | LM-BFF | 55.0 | 56.1 | 60.0 | 79.1 |
| ChemProt | DART | 57.2 | 60.8 | 63.1 | 81.0 |
- DART는 15개의 NLP 데이터셋에서 소수 샷 설정에서 일관되게 기존 파인튜닝보다 우수한 성능을 보이며(예: 관계 추출 데이터셋에서 절대적 향상 최대 23.28%에 달함).
- DART는 LM-BFF와 경쟁력 있는 결과를 달성하고, 레이블이 복합 의미를 가질 때 특히 P-튜닝을 상회한다.
- 많은 클래스가 있는 관계 추출 및 이벤트 추출에서 소수 샷 및 전체 데이터 설정 모두에서 상당한 이득을 보인다(예: TACRED-Revisit, Wiki80, ChemProt).
- 일부 구성 요소의 제거(유창성 제약, 차분 가능한 템플릿, 차분 가능한 레이블)가 성능에 기여하며, 특히 저자원 환경에서 차분 가능한 레이블 최적화가 큰 영향을 미친다.
- 시각화 분석은 차분 가능한 프롬프트가 고정 프롬프트보다 더 구별되고 축소된 표현을 생성함을 보여주며 정확도 향상과 상관관계가 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.