QUICK REVIEW

[논문 리뷰] Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis of Head and Prompt Tuning

Colin Wei, Sang Michael Xie|arXiv (Cornell University)|2021. 06. 17.

Topic Modeling참고 문헌 28인용 수 33

한 줄 요약

이 논문은 잠재 변수 생성 모델(HMM 및 기억 보강 HMM) 하에서 head tuning과 prompt tuning을 검토하여 pretrained 언어 모델이 다운스트림 작업을 어떻게 돕는지 분석하고, 다양한 비퇴화(non-degeneracy) 조건하에서 회복 보장을 증명하며 합성 실험으로 결과를 검증한다.

ABSTRACT

Pretrained language models have achieved state-of-the-art performance when adapted to a downstream NLP task. However, theoretical analysis of these models is scarce and challenging since the pretraining and downstream tasks can be very different. We propose an analysis framework that links the pretraining and downstream tasks with an underlying latent variable generative model of text -- the downstream classifier must recover a function of the posterior distribution over the latent variables. We analyze head tuning (learning a classifier on top of the frozen pretrained model) and prompt tuning in this setting. The generative model in our analysis is either a Hidden Markov Model (HMM) or an HMM augmented with a latent memory component, motivated by long-term dependencies in natural language. We show that 1) under certain non-degeneracy conditions on the HMM, simple classification heads can solve the downstream task, 2) prompt tuning obtains downstream guarantees with weaker non-degeneracy conditions, and 3) our recovery guarantees for the memory-augmented HMM are stronger than for the vanilla HMM because task-relevant information is easier to recover from the long-term memory. Experiments on synthetically generated data from HMMs back our theoretical findings.

연구 동기 및 목표

텍스트의 기저 잠재 변수 생성 모델을 통해 사전 학습과 다운스트림 작업을 연결한다.
후사(latent posterior) 잠재 변수에 조건화되었을 때 간단한 헤드나 프롬프트를 사용하여 다운스트림 레이블을 회복할 수 있음을 보인다.
바닐라 HMM과 기억 보강 HMM에서 헤드 튜닝과 프롬프트 튜닝을 비교하여 업무 관련 정보 회복의 강건성을 이해한다.
프롬프트 튜닝이 비퇴화 조건을 완화하고 회복 보장을 강화함을 보여준다.
이론적 주장들을 뒷받침하는 합성으로 생성된 데이터에 대한 실증 검증을 제공한다.

제안 방법

데이터를 잠재 변수 생성 모델(HMM 및 기억 보강 HMM)로 모델링한다.
비퇴화 아래에서 정확한 조건부 토큰 확률에 선형 헤드를 적용하여 다운스트림 레이블을 회복할 수 있음을 증명한다(정리 3.3).
소프트 프롬프트 튜닝이 비퇴화를 완화하여 회복을 가능하게 함을 보인다(정리 3.6).
기억 보강 HMM으로 분석을 확장하면 어텐션 기반 헤드가 약한 조건에서 레이블을 회복한다(정리 4.3).
기억 보강 환경에서 프롬프트 튜닝의 추가 회복 보장을 제공한다(정리 4.6).
합성으로 생성된 HMM 데이터에 대해 사전 학습된 언어 모델로 실증적으로 검증한다.

실험 결과

연구 질문

RQ1사전 학습된 모델 출력에 선형 헤드를 두고 HMM 기반 데이터 생성 과정에서 다운스트림 레이블을 회복할 수 있는가?
RQ2프롬프트 튜닝이 비퇴화 요구를 완화하고 헤드 튜닝에 비해 다운스트림 복구성을 개선하는가?
RQ3기억 보강 HMM이 작업 관련 정보의 회복성을 강화하며 어텐션 헤드가 선형 헤드보다 성능을 낼 수 있는가?
RQ4프롬프트 튜닝 보장이 기억 보강 모델에 어떻게 확장되는가?

주요 결과

바닐라 HMM에서 토큰 방출의 강력한 비퇴화가 주어지면 선형 헤드가 다운스트림 레이블을 회복할 수 있다.
소프트 프롬프트 튜닝은 비퇴화 요건을 완화하고 더 약한 조건에서 다운스트림 회복을 가능하게 한다.
기억 보강 HMM은 바닐라 HMM보다 더 강한 회복 보장을 제공하며, 메모리가 어텐션 헤드를 통해 작업 관련 정보를 추출하도록 돕는다.
기억 보강 설정에서 어텐션 기반 헤드가 선형 헤드보다 약한 가정 하에서 실제 레이블을 회복할 수 있다.
프롬프트 튜닝은 합성 데이터에서 헤드 튜닝보다 실험적 성능이 우수함을 보였으며 이론적 보장과 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.