Skip to main content
QUICK REVIEW

[论文解读] LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning

Yi-Lin Sung, Jaemin Cho|arXiv (Cornell University)|Jun 13, 2022
Domain Adaptation and Few-Shot Learning被引用 79
一句话总结

Ladder Side-Tuning(LST)通过引入梯子侧网络来使用中间骨干网络的激活,实现在不对大骨干网络进行反向传播的情况下的参数和内存高效的迁移学习。

ABSTRACT

Fine-tuning large pre-trained models on downstream tasks has been adopted in a variety of domains recently. However, it is costly to update the entire parameter set of large pre-trained models. Although recently proposed parameter-efficient transfer learning (PETL) techniques allow updating a small subset of parameters (e.g. only using 2% of parameters) inside a pre-trained backbone network for a new task, they only reduce the training memory requirement by up to 30%. This is because the gradient computation for the trainable parameters still requires backpropagation through the large pre-trained backbone model. To address this, we propose Ladder Side-Tuning (LST), a new PETL technique that can reduce training memory requirements by more substantial amounts. Unlike existing parameter-efficient methods that insert additional parameters inside backbone networks, we train a ladder side network, a small and separate network that takes intermediate activations as input via shortcut connections (called ladders) from backbone networks and makes predictions. LST has significantly lower memory requirements than previous methods, because it does not require backpropagation through the backbone network, but instead only through the side network and ladder connections. We evaluate our method with various models (T5 and CLIP-T5) on both NLP (GLUE) and vision-and-language (VQA, GQA, NLVR2 , MSCOCO) tasks. LST saves 69% of the memory costs to fine-tune the whole network, while other methods only save 26% of that in similar parameter usages (hence, 2.7x more memory savings). Moreover, LST achieves higher accuracy than Adapter and LoRA in a low-memory regime. To further show the advantage of this better memory efficiency, we also apply LST to larger T5 models, attaining better GLUE performance than full fine-tuning and other PETL methods. The accuracy-efficiency trade-off also holds on VL tasks.

研究动机与目标

  • 激发对大型预训练模型的内存和参数高效的迁移学习。
  • 提出一种侧网络方法,在训练过程中避免对骨干网络的反向传播。
  • 通过结构化权重初始化和对侧网络的层丢弃来提升效率。
  • 在 NLP(GLUE)和视觉语言任务(VQA、GQA、NLVR2、MSCOCO)上评估 LST,并与 PETL 基线进行比较。
  • 展示对更大骨干网络(T5-large、T5-3B)的可扩展性并显示内存节省。

提出的方法

  • 训练一个梯子侧网络 g,通过梯子连接从冻结的骨干网络 f 获取中间层激活。
  • 使用降维后的侧网络(降采样系数为 r),在每层使用可学习门 μi 将骨干表示和侧网络表示混合。
  • 通过从骨干网络进行结构性剪枝(Fisher 信息量或权重大小)将侧网络权重初始化为 d_out/r 行、d_in 列。
  • 可选地在侧网络中丢弃某些层以进一步减少内存和参数(Layer Dropping)。
  • 在训练过程中,反向传播仅在侧网络和梯子上进行,不通过骨干网络,从而减少内存使用。
  • 提供仅编码器和编码器-解码器两种变体,带有线性投影以下采样/上采样激活,并支持并行化前向传播。

实验结果

研究问题

  • RQ1梯子侧调优是否在降低训练内存的同时,仍能达到与全微调及其他 PETL 方法相当的任务性能?
  • RQ2结构化初始化和层丢弃如何影响 LST 在 NLP 和 VL 任务上的性能与效率?
  • RQ3在保持内存优势的同时,是否可以将 LST 扩展到更大的骨干网络(如 T5-large、T5-3B)?
  • RQ4梯子连接和门控对利用中间骨干激活进行任务适应的影响是什么?

主要发现

  • LST 通过避免对骨干网络的反向传播来降低训练内存,在低内存阶段实现了显著的内存节省(在 GLUE 上相对于全微调最高可达 69%),且准确度与适配器和 LoRA 相当或更好。
  • 初始化侧网络为剪枝后的骨干权重(使用 Fisher 信息量或权重大小)在不同规模的侧网络上提升性能。
  • 侧网络的层丢弃在提升效率方面效果显著,几乎不损失性能。
  • LST 可扩展到更大型的模型(T5-large、T5-3B),在相似内存预算下获得比全微调和其他 PETL 方法更高的 GLUE 性能。
  • 在视觉语言任务中,LST 在内存使用显著降低的同时达到有竞争力的准确性(2.7x 内存节省),可在 16GB 显存的 GPU 上运行,约 7.5% 的参数是可训练的。
  • 消融实验证实中间捷径和初始化策略的好处,而基于蒸馏或剪枝的初始化也能达到相似的准确度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。