[논문 리뷰] PPT: Pre-trained Prompt Tuning for Few-shot Learning
PPT는 통합된 자기지도 학습 태스크에서 소프트 프롬프트를 사전 학습하여 프롬프트 튜닝을 초기화하고, 그 결과 PPT가 일반 프롬프트 튜닝을 능가하고 종종 전체 모델 미세 조정과 견주거나 초과하는 성능을 few-shot 및 full-data 설정에서 보인다.
Prompts for pre-trained language models (PLMs) have shown remarkable performance by bridging the gap between pre-training tasks and various downstream tasks. Among these methods, prompt tuning, which freezes PLMs and only tunes soft prompts, provides an efficient and effective solution for adapting large-scale PLMs to downstream tasks. However, prompt tuning is yet to be fully explored. In our pilot experiments, we find that prompt tuning performs comparably with conventional full-model fine-tuning when downstream data are sufficient, whereas it performs much worse under few-shot learning settings, which may hinder the application of prompt tuning in practice. We attribute this low performance to the manner of initializing soft prompts. Therefore, in this work, we propose to pre-train prompts by adding soft prompts into the pre-training stage to obtain a better initialization. We name this Pre-trained Prompt Tuning framework "PPT". To ensure the generalization of PPT, we formulate similar classification tasks into a unified task form and pre-train soft prompts for this unified task. Extensive experiments show that tuning pre-trained prompts for downstream tasks can reach or even outperform full-model fine-tuning under both full-data and few-shot settings. Our approach is effective and efficient for using large-scale PLMs in practice.
연구 동기 및 목표
- 대형 PLM에서 프리트레이닝과 다운스트림 작업을 프롬프트 튜닝으로 연결해야 할 필요성을 제시한다.
- few-shot 설정에서 초기화를 개선하기 위한 소프트 프롬프트의 사전 학습 전략을 제안한다.
- 다운스트림 분류 작업을 공통의 사전 학습 프레임워크로 통합하여 작업 간 프롬프트의 일반화를 가능하게 한다.
- 매개변수 효율성을 유지하면서 PPT가 전체 모델 미세 조정에 도달하거나 이를 능가할 수 있음을 입증한다.
제안 방법
- 다운스트림 작업을 패턴-발화자 쌍으로 표현하여 프롬프트를 구성한다.
- 작업 형식(문장 쌍, 객관식, 단일 텍스트)에 맞춘 자기지도 작업에서 소프트 프롬프트를 사전 학습한다.
- 다양한 작업을 광범위한 활용성을 가능하게 하는 단일 다지선다 사전 학습 형식으로 통합한다.
- 사전 학습된 소프트 프롬프트로 다운스트림 프롬프트 튜닝을 초기화하고 프롬프트 매개변수 0.41M만 미세조정한다.
- 영어와 중국어 11B PLM에서 few-shot와 full-data 설정에 걸쳐 PPT 및 변형들을 평가한다.
실험 결과
연구 질문
- RQ1사전 학습된 소프트 프롬프트가 대형 PLM의 few-shot 학습에서 프롬프트 튜닝의 효과를 향상시킬 수 있는가?
- RQ2사전 학습을 통해 작업 형식을 통합하는 것이 프롬프트의 작업 간 일반화를 향상시키는가?
- RQ3few-shot 및 full-data 구간에서 정확도와 분산 측면에서 PPT가 전체 모델 미세조정 및 일반 프롬프트 튜닝과 어떻게 비교되는가?
주요 결과
- PPT는 일반적으로 few-shot 및 full-data 시나리오에서 vanilla 프롬프트 튜닝과 언어모델 적응 기준선 대비 우수한 성능을 보인다.
- 하이브리드 PPT(정교하게 설계된 하드 프롬프트와 소프트 프롬프트)를 사용하면 여러 영어 및 중국어 태스크에서 종종 최고 성능을 달성한다.
- PPT는 많은 데이터 세트에서 전체 모델 미세조정(FT)을 능가하거나 근접하게 접근할 수 있어, 프리트레이닝 프롬프트가 사전 학습과 다운스트림 작업 간의 간극을 메워 준다는 것을 시사한다.
- 통합된 PPT(태스크 형식을 다지선다로 통합)는 다섯 개 이상의 레이블이 있는 태스크에서 특히 경쟁력 있는 결과를 달성한다.
- PPT는 few-shot 결과의 변동성을 감소시켜 시드 간에 더 안정적인 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.