[论文解读] Variational Information Bottleneck for Effective Low-Resource Fine-Tuning
VIBERT 在微调过程中应用变分信息瓶颈对预训练的句子表征进行压缩,降低过拟合并在低资源 NLP 情况下提升跨域泛化能力。
While large-scale pretrained language models have obtained impressive results when fine-tuned on a wide variety of tasks, they still often suffer from overfitting in low-resource scenarios. Since such models are general-purpose feature extractors, many of these features are inevitably irrelevant for a given target task. We propose to use Variational Information Bottleneck (VIB) to suppress irrelevant features when fine-tuning on low-resource target tasks, and show that our method successfully reduces overfitting. Moreover, we show that our VIB model finds sentence representations that are more robust to biases in natural language inference datasets, and thereby obtains better generalization to out-of-domain datasets. Evaluation on seven low-resource datasets in different tasks shows that our method significantly improves transfer learning in low-resource scenarios, surpassing prior work. Moreover, it improves generalization on 13 out of 15 out-of-domain natural language inference benchmarks. Our code is publicly available in https://github.com/rabeehk/vibert.
研究动机与目标
- 激励并解决在低资源数据上对大规模预训练语言模型进行微调时的过拟合问题。
- 引入变分信息瓶颈(VIB)在任务特定分类前对句子表征进行压缩。
- 证明 VIB 可以减少对表层偏见的依赖并提高跨域泛化能力。
- 在七个低资源数据集和多种 NLP 任务上展示经验增益。
提出的方法
- 在预训练编码器(BERT)之上整合一个 VIB 模块,将句子嵌入映射到任务分类器使用的潜在变量 z。
- 使用变分目标函数,最小化 KL(pθ(z|x) || r(z)) 加上对 y 的重构项 (qφ(y|z)),形式如 L_VIB = β E_x[KL(pθ(z|x), r(z))] + E_z~pθ(z|x)[-log qφ(y|z)].
- 假设高斯先验 r(z) 与对角协方差的后验 pθ(z|x),以使 KL 的解析计算成为可能。
- 通过一个浅层 MLP 从 fφ(x)(预训练编码器的句子嵌入)估计 μ(x) 和 Σ(x)。
- 端到端训练,重参数化为 z = μ(x) + Σ(x) ⊙ ε, ε ~ N(0, I)。
- 将 z 作为任务特定分类器 qφ(y|z) 的唯一输入。
- 在 bottleneck 尺度 K 和正则化权重 β 上进行实验,以控制信息压缩。
实验结果
研究问题
- RQ1在微调过程中引入变分信息瓶颈是否能降低低资源 NLP 任务的过拟合?
- RQ2VIBETR 是否提高对数据集偏差的鲁棒性并更好地泛化到跨域的 NLI 数据集?
- RQ3在低资源和跨域场景下,VIBERT 与标准正则化方法(Dropout、Mixout、Weight Decay)相比如何?
- RQ4VIB 对训练效率和模型规模的影响是什么?
主要发现
- VIBERT 相较基线在七个低资源数据集上显著提升准确率。
- 在低资源设置下,VIBERT 在 BERT-Base 和 BERT-Large 上相对于 Dropout、Mixout 和 Weight Decay 取得显著提升。
- VIBERT 减少对表层偏见的依赖,从而在跨域 NLI 数据集上实现更好的泛化。
- 假设仅偏置分析表明 VIBERT 的假设仅准确率显著更低,表明表征去偏。
- VIBERT 展示了信息压缩(β)与预测性能之间可控的权衡,当 β 平衡时泛化能力提升。
- 在不含压缩损失(β=0)的消融实验中性能下降,证明了 VIB 目标的好处。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。