Skip to main content
QUICK REVIEW

[논문 리뷰] Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning

Zhen Wang, Rameswar Panda|arXiv (Cornell University)|2023. 03. 06.
Topic Modeling인용 수 30
한 줄 요약

MPT는 교차 작업 증류를 통해 하나의 전이 가능한 소프트 프롬프트와 저랭크 태스크-특정 업데이트가 있는 공유 프롬프트를 학습하여, 조정 가능한 매개변수의 수가 매우 적은 상태에서 강력한 전이를 얻고 일부 작업에서 전체 파인튜닝을 능가합니다.

ABSTRACT

Prompt tuning, in which a base pretrained model is adapted to each task via conditioning on learned prompt vectors, has emerged as a promising approach for efficiently adapting large language models to multiple downstream tasks. However, existing methods typically learn soft prompt vectors from scratch, and it has not been clear how to exploit the rich cross-task knowledge with prompt vectors in a multitask learning setting. We propose multitask prompt tuning (MPT), which first learns a single transferable prompt by distilling knowledge from multiple task-specific source prompts. We then learn multiplicative low rank updates to this shared prompt to efficiently adapt it to each downstream target task. Extensive experiments on 23 NLP datasets demonstrate that our proposed approach outperforms the state-of-the-art methods, including the full finetuning baseline in some cases, despite only tuning 0.035% as many task-specific parameters.

연구 동기 및 목표

  • 많은 NLP 태스크에서 대형 언어 모델을 적응시키는 매개변수 비용을 감소시키려는 동기를 제시한다.
  • 분해와 증류를 통해 다중 소스 태스크로부터 공유 프롬프트를 학습하는 다작업 프레임워크를 개발한다.
  • 공유 프롬프트에 대한 저랭크 곱 업데이트를 통해 새로운 태스크에 대한 효율적인 적응을 가능하게 한다.
  • 다양한 모델 규모와 함께 NLU 및 NLG 작업 전반에 걸친 광범위한 전이가 가능함을 보여준다.

제안 방법

  • 각 소스 태스크 프롬프트 Pk를 Hadamard 곱을 통해 공유 프롬프트 P*와 저랭크 태스크-특정 구성요소 Wk로 분해하되, Wk = uk ⊗ vk^T.
  • 별도로 학습된 소스 프롬프트들로부터 지식을 증류하여 로짓 로스와 은닉 상태 손실을 통해 고품질의 분해 가능한 공유 프롬프트를 학습한다.
  • 소스 태스크에서 베이직 프롬프트 튜닝으로 teacher 프롬프트를 학습한 다음, P*를 공유하는 student 프롬프트를 학습시켜 KL 발산과 은닉 상태 MSE를 최소화하고, LTotal = LPLM + λ (L_logits + L_hidden) 형태를 이룬다.
  • 타깃 태스크에 적응하기 위해 P̂t = P* ∘ (ut ⊗ vt^T)로 초기화하고, 태스크-특정 손실과 함께 P*, ut, vt를 공동으로 업데이트한다; P*와 ut, vt에 서로 다른 학습률을 사용한다.
  • 적응 후 각 태스크가 필요로 하는 조정 가능한 매개변수는 (l×d) + (l+d)로 한정되어 매개변수 효율이 달성되며, 태스크당 총 (l×d) + (l+d) 매개변수이고 일부 설정에서 태스크당 0.035%의 조정 가능 매개변수를 차지한다.
  • 두 단계 워크플로우: 1) 증류를 통한 다중태스크 소스 학습으로 단일 공유 프롬프트를 훈련; 2) 저랭크 곱 업데이트로 타겟 태스크에 전이.

실험 결과

연구 질문

  • RQ1한 가지 전이 가능한 프롬프트가 여러 소스 태스크에서 학습되어 보지 못한 대상 태스크에서 태스크별 프롬프트보다 우수할 수 있는가?
  • RQ2공유 프롬프트와 저랭크 태스크-특정 구성요소로의 분해가 교차 태스크 전이와 간섭 감소에 도움이 되는가?
  • RQ3증류 로스(로짓 및 은닉 상태)가 다운스트림 전이를 위한 공유 프롬프트의 품질을 개선하는가?
  • RQ4MPT는 전체 파인튜닝 및 다른 매개변수 효율적 방법에 비해 다양한 NLP 태스크(NLU 및 NLG)와 모델 규모에서 어떻게 성능을 보이는가?
  • RQ5적은 샷 데이터가 MPT 프롬프트의 전이성에 어떤 영향을 미치는가?

주요 결과

  • MPT는 23개 NLP 데이터셋에서 강력한 성과를 달성하며, 태스크-특정 매개변수를 0.035%만 조정하면서도 종종 전체 파인튜닝을 능가한다.
  • GLUE와 SuperGLUE에서 MPT는 GLUE에서 표준 프롬프트 튜닝 대비 상대적 13% 향상, SuperGLUE에서 표준 PT 대비 16% 향상을 제공한다.
  • MPT는 SPoT, ATTEMPT, BitFit를 능가하면서 훨씬 적은 태스크-특정 매개변수를 사용하며, 일부 벤치마크에서 전체 파인튜닝을 초과할 수 있다.
  • 프롬프트 분해와 증류는 상당한 이득을 가져오며(SuperGLUE 평균 74.1, 분해+증류 vs 69.5 없는 경우).
  • MPT는 NLU 소스 태스크에서 학습된 프롬프트를 NLG 대상(E2E, WebNLG)으로 전이시키며, vanilla PT 대비 BLEU가 3.03% 및 6.25% 향상된다.
  • 모델 규모(T5-Small에서 T5-Large)에 걸쳐 MPT는 매개변수 효율성과 성능에서 경쟁력이 있으며 종종 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.