QUICK REVIEW

[논문 리뷰] Prefix-Tuning: Optimizing Continuous Prompts for Generation

Xiang Lisa Li, Percy Liang|arXiv (Cornell University)|2021. 01. 01.

Topic Modeling참고 문헌 40인용 수 290

한 줄 요약

프리픽스 튜닝은 언어 모델을 고정시키고 생성 방향을 제어하기 위해 작은 연속 프리픽스를 학습하며, 1000배 적은 파라미터로 미세조정과 비슷한 성능을 달성하고 데이터가 적은 설정과 외삽(추정) 설정에서 더 나은 성능을 보인다.

ABSTRACT

Fine-tuning is the de facto way to leverage large pretrained language models to perform downstream tasks. However, it modifies all the language model parameters and therefore necessitates storing a full copy for each task. In this paper, we propose prefix-tuning, a lightweight alternative to fine-tuning for natural language generation tasks, which keeps language model parameters frozen, but optimizes a small continuous task-specific vector (called the prefix). Prefix-tuning draws inspiration from prompting, allowing subsequent tokens to attend to this prefix as if it were "virtual tokens". We apply prefix-tuning to GPT-2 for table-to-text generation and to BART for summarization. We find that by learning only 0.1\% of the parameters, prefix-tuning obtains comparable performance in the full data setting, outperforms fine-tuning in low-data settings, and extrapolates better to examples with topics unseen during training.

연구 동기 및 목표

대규모 사전학습된 LM을 생성 태스크에서 전체 미세조정보다 가볍게 활용하기 위한 동기를 제시한다.
LM 매개변수를 고정한 상태에서 작은 연속 프리픽스를 학습하는 방법을 소개한다.
테이블-투-텍스트와 추상적 요약에서 프리픽스 튜닝의 효율성과 효과를 보여준다.
전체 데이터, 소량 데이터, 외삽(추정) 시나리오에서 프리픽스 튜닝을 평가하여 일반화성과 확장성을 평가한다.

제안 방법

autoregressive LMs 또는 인코더-디코더 모델의 입력에 학습 가능한 연속 프리픽스를 선행시키다.
프리픽스를 |P_idx| x dim(h_i) 크기의 학습 가능한 행렬 P_theta로 표현하고 안정성을 위해 MLP를 통해 재매개변수화한다.
학습 중 LM 매개변수 phi를 동결하고 프리픽스 매개변수 theta만 최적화한다.
프리픽스 활성화를 무작위로 시작하거나 실제 단어의 활성화로 시작해 초기화 영향력을 특히 소량 데이터 설정에서 보여준다.
프리픽스를 테이블-투-텍스트(GPT-2 변형)와 요약(BART)에서 미세조정, 최상위 계층 미세조정, 어댑터 튜닝과 비교한다.
표준 생성 목표(log-likelihood)를 사용하고 일관된 디코딩 설정(빔 검색 등)을 적용한다.

실험 결과

연구 질문

RQ1전체 LM 매개변수를 업데이트하지 않고도 작은 연속 프리픽스가 생성 작업을 제어할 수 있는가?
RQ2테이블-투-텍스트와 요약에서 전체 데이터 및 소량 데이터 하에서 프리픽스 튜닝이 전체 미세조정 및 경량 베이스라인과 어떻게 비교되는가?
RQ3프리픽스 튜닝이 미지의 주제나 도메인에 대한 일반화(외삽)에 대해 미세조정보다 더 잘 일반화하는가?
RQ4프리픽스 길이, 초기화, 위치(프리픽스 대 인픽) 가 성능에 어떤 영향을 미치는가?
RQ5다수의 작업/사용자를 대상으로 한 개인화 시나리오에서 프리픽스 튜닝이 확장 가능하고 배치 친화적인가?

주요 결과

파라미터의 0.1%만 업데이트해도 프리픽스 튜닝이 테이블-투-텍스트에서 미세조정과 비슷한 성능을 달성한다.
소량 데이터 설정에서 프리픽스 튜닝은 작업 전반에 걸쳐 미세조정보다 성능이 우수하다.
프리픽스 튜닝은 미세조정에 비해 미지의 주제에 대한 외삽에서 더 나은 일반화를 보인다.
프리픽스 튜닝은 GPT-2 중형에서 대형으로 확장되도 파라미터 수를 크게 줄인 상태에서 강한 성능을 유지한다.
실제 단어의 활성화로 초기화하는 것이 특히 소량 데이터 구간에서 성능을 향상시킨다.
프리픽스 튜닝은 어댑터 튜닝에 비해 Pareto 효율성을 유지하며 훨씬 적은 파라미터로 비슷하거나 더 나은 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.