[论文解读] Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis of Head and Prompt Tuning
本文通过在潜变量生成模型(HMMs 与记忆增强型 HMMs)框架下考察头部微调与提示微调,分析预训练语言模型为何有助于下游任务,并在各种非退化条件下证明恢复保证,并通过合成实验进行验证。
Pretrained language models have achieved state-of-the-art performance when adapted to a downstream NLP task. However, theoretical analysis of these models is scarce and challenging since the pretraining and downstream tasks can be very different. We propose an analysis framework that links the pretraining and downstream tasks with an underlying latent variable generative model of text -- the downstream classifier must recover a function of the posterior distribution over the latent variables. We analyze head tuning (learning a classifier on top of the frozen pretrained model) and prompt tuning in this setting. The generative model in our analysis is either a Hidden Markov Model (HMM) or an HMM augmented with a latent memory component, motivated by long-term dependencies in natural language. We show that 1) under certain non-degeneracy conditions on the HMM, simple classification heads can solve the downstream task, 2) prompt tuning obtains downstream guarantees with weaker non-degeneracy conditions, and 3) our recovery guarantees for the memory-augmented HMM are stronger than for the vanilla HMM because task-relevant information is easier to recover from the long-term memory. Experiments on synthetically generated data from HMMs back our theoretical findings.
研究动机与目标
- 通过文本的潜在变量生成模型将预训练与下游任务联系起来。
- 证明在条件于后验潜在变量时,可以使用简单的头部或提示来恢复下游标签。
- 在普通 HMM 与记忆增强型 HMM 下对比头部微调和提示微调,理解任务相关信息恢复的鲁棒性。
- 证明提示微调放宽非退化条件并增强恢复保证。
- 在合成生成的数据上提供支持理论主张的经验验证。
提出的方法
- 用潜在变量生成模型建模数据:HMM 与记忆增强型 HMM。
- 在非退化条件下,证明通过对确切条件符号概率的线性头可以恢复下游标签(定理 3.3)。
- 证明软提示微调放宽非退化条件以实现恢复(定理 3.6)。
- 将分析扩展到记忆增强型 HMM,其中基于注意力的头在更弱的条件下恢复标签(定理 4.3)。
- 在记忆增强设置中为提示微调提供进一步的恢复保证(定理 4.6)。
- 在对合成生成的 HMM 数据进行预训练的语言模型上进行经验验证。
实验结果
研究问题
- RQ1在基于 HMM 的数据生成过程中,线性头能从预训练模型输出中恢复下游标签吗?
- RQ2与头部微调相比,提示微调是否放宽非退化要求并提高下游可恢复性?
- RQ3记忆增强型 HMM 是否提升任务相关信息的可恢复性,注意力头是否能超越线性头?
- RQ4提示微调的保证如何扩展到记忆增强模型?
主要发现
- 在普通 HMM 下,若符号发射具有强非退化性,线性头可以恢复下游标签。
- 软提示微调放宽非退化性要求,并在较弱条件下实现下游恢复。
- 记忆增强型 HMM 相较于普通 HMM 提供更强的恢复保证,因为记忆通过注意力头促进提取任务相关信息。
- 在记忆增强情境中,基于注意力的头在比线性头更弱的假设下也能恢复真实标签。
- 在合成生成的数据上,提示微调的实验表现优于头部微调,与理论保证一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。