Skip to main content
QUICK REVIEW

[논문 리뷰] Differentiable Prompt Makes Pre-trained Language Models Better Few-shot Learners

Ningyu Zhang, Luoqiu Li|arXiv (Cornell University)|2021. 08. 30.
Topic Modeling참고 문헌 46인용 수 75
한 줄 요약

DART는 differentiable prompt 및 label optimization을 도입하여 소형 언어 모델을 강력한 few-shot 학습기로 변환하고, 표준 파인튜닝 대비 뚜렷한 향상과 15개의 NLP 태스크에서 최신 프롬프트 튜닝 방법들과 경쟁력 있는 결과를 달성합니다.

ABSTRACT

Large-scale pre-trained language models have contributed significantly to natural language processing by demonstrating remarkable abilities as few-shot learners. However, their effectiveness depends mainly on scaling the model parameters and prompt design, hindering their implementation in most real-world applications. This study proposes a novel pluggable, extensible, and efficient approach named DifferentiAble pRompT (DART), which can convert small language models into better few-shot learners without any prompt engineering. The main principle behind this approach involves reformulating potential natural language processing tasks into the task of a pre-trained language model and differentially optimizing the prompt template as well as the target label with backpropagation. Furthermore, the proposed approach can be: (i) Plugged to any pre-trained language models; (ii) Extended to widespread classification tasks. A comprehensive evaluation of standard NLP tasks demonstrates that the proposed approach achieves a better few-shot performance. Code is available in https://github.com/zjunlp/DART.

연구 동기 및 목표

  • 대규모 프롬팅의 한계를 극복하고 작은 LMs에 대한 효율적이고 플러그인 가능한 few-shot 학습을 가능하게 한다.
  • 연속 공간에서 프롬프트 템플릿과 레이블을 최적화하는 DifferentiAble pRompT (DART)를 제안한다.
  • 모델에 독립적인 적용 가능성과 광범위한 분류 태스크로의 확장성을 보장한다.
  • auxiliary fluency 제약을 통해 few-shot 학습의 안정화를 도모한다.
  • 복합적인 레이블 공간을 갖는 태스크를 포함하여 15개의 NLP 데이터셋에서의 개선을 실증적으로 보여준다.

제안 방법

  • 차분 가능한 템플릿을 구성하고 모델 매개변수를 추가하지 않고 역전파를 통해 최적화하기 위해 의사 토큰을 사용한다.
  • 사전 훈련된 임베딩으로 레이블을 연속 공간에서 표현하고 어휘의 사용되지 않는 토큰에 매핑하여 외부 매개변수 최적화를 피한다.
  • 프롬프트 임베딩 간의 상호 의존성을 강화하고 언어 모델의 유창성을 유지하기 위한 보조 유창성 제약을 도입한다.
  • 클래스 구별력(교차 엔트로피)과 유창성 제약(이진 교차 엔트로피)을 결합한 결합 손실을 최적화한다.
  • 다양한 PLM(RoBERTa-large, GPT-2-medium 등)과의 플러그인 호환성 및 관계 추출, 이벤트 추출과 같은 태스크로의 확장성을 보여준다.
  • 전통적인 파인튜닝 및 LM-BFF 스타일의 프롬프트 튜닝과 비교하여 소수 샷 설정에서의 성능 향상을 강조한다.

실험 결과

연구 질문

  • RQ1작은~중간 규모의 사전학습된 언어 모델을 사용할 때 differentiable prompt 및 label 최적화가 few-shot 학습을 향상시킬 수 있는가?
  • RQ2프롬프트 고정과 비교하여 템플릿 임베딩과 레이블 임베딩을 유창성 제약과 함께 공동 최적화하면 더 구별되는 표현이 생성되는가?
  • RQ3DART 접근법이 다양한 NLP 태스크 및 레이블 공간에서 플러그인 가능하고 모델에 독립적인가?
  • RQ4복합적인 레이블 의미를 가진 태스크(예: 관계 추출, 이벤트 추출)에서 DART의 성능은 표준 파인튜닝 및 기존 프롬프트 튜닝 방법과 비교해 어떤가?

주요 결과

Dataset모델K=8K=16K=32전체
SemEvalFine-tuning26.343.864.287.8
SemEvalLM-BFF43.262.072.988.0
SemEvalDART51.867.277.389.1
TACRED-RevisitFine-tuning7.415.525.875.0
TACRED-RevisitLM-BFF21.023.727.176.4
TACRED-RevisitDART25.830.131.877.8
Wiki80Fine-tuning46.360.370.087.5
Wiki80LM-BFF66.573.578.186.2
Wiki80DART68.575.279.488.1
ChemProtFine-tuning30.241.552.579.5
ChemProtLM-BFF55.056.160.079.1
ChemProtDART57.260.863.181.0
  • DART는 15개의 NLP 데이터셋에서 소수 샷 설정에서 일관되게 기존 파인튜닝보다 우수한 성능을 보이며(예: 관계 추출 데이터셋에서 절대적 향상 최대 23.28%에 달함).
  • DART는 LM-BFF와 경쟁력 있는 결과를 달성하고, 레이블이 복합 의미를 가질 때 특히 P-튜닝을 상회한다.
  • 많은 클래스가 있는 관계 추출 및 이벤트 추출에서 소수 샷 및 전체 데이터 설정 모두에서 상당한 이득을 보인다(예: TACRED-Revisit, Wiki80, ChemProt).
  • 일부 구성 요소의 제거(유창성 제약, 차분 가능한 템플릿, 차분 가능한 레이블)가 성능에 기여하며, 특히 저자원 환경에서 차분 가능한 레이블 최적화가 큰 영향을 미친다.
  • 시각화 분석은 차분 가능한 프롬프트가 고정 프롬프트보다 더 구별되고 축소된 표현을 생성함을 보여주며 정확도 향상과 상관관계가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.