QUICK REVIEW

[论文解读] Revisiting Parameter-Efficient Tuning: Are We Really There Yet?

Guanzheng Chen, Fangyu Liu|arXiv (Cornell University)|Jan 1, 2022

Topic Modeling被引用 2

一句话总结

本文重新评估了参数高效微调（PETuning）方法——如LoRA、Adapter、Prefix Tuning和BitFit——通过揭示当前评估实践中的缺陷，这些缺陷导致了过于乐观的性能宣称。在公平、独立的验证与测试协议下，PETuning在中等和高资源设置下未能持续优于全量微调，且由于权重初始化和数据顺序的影响，表现出显著的不稳定性，而参数量更少、训练步数更多反而能提升稳定性。

ABSTRACT

Parameter-Efficient Tuning (PETuning) methods have been deemed by many as the new paradigm for using pretrained language models (PLMs). By tuning just a fraction amount of parameters comparing to full model finetuning, PETuning methods claim to have achieved performance on par with or even better than finetuning. In this work, we take a step back and re-examine these PETuning methods by conducting the first comprehensive investigation into the training and evaluation of them. We found the problematic validation and testing practice in current studies, when accompanied by the instability nature of PETuning methods, has led to unreliable conclusions. When being compared under a truly fair evaluation protocol, PETuning cannot yield consistently competitive performance while finetuning remains to be the best-performing method in medium- and high-resource settings. We delve deeper into the cause of the instability and observed that the number of trainable parameters and training iterations are two main factors: reducing trainable parameters and prolonging training iterations may lead to higher stability in PETuning methods.

研究动机与目标

调查当前PETuning方法评估协议的可靠性，这些协议通常使用相同的开发集进行早停和性能报告。
评估PETuning方法是否在不同数据资源设置下真正优于全量微调。
分析PETuning方法的不稳定性，并识别影响其性能一致性的关键因素。
提出一种更公平的评估框架，通过分离验证集和测试集以确保泛化能力的评估。

提出的方法

在12个GLUE和SuperGLUE任务上开展受控实验，采用标准化的训练/验证/测试划分，以消除数据泄露。
对低资源和中资源任务使用20个随机种子，对高资源任务使用10个随机种子，通过标准差衡量稳定性。
采用严格的评估协议：验证集仅用于早停，测试仅在保留的测试集上执行一次。
系统性地改变可训练参数数量和训练迭代次数，以分析其对稳定性和性能的影响。
在相同条件下将PETuning方法（Adapter、Prefix Tuning、LoRA、BitFit）与全量微调进行对比。
报告统计显著性，并使用标准差量化各次运行间的不稳定性。

实验结果

研究问题

RQ1当前将开发集同时用于早停和性能报告的做法，是否会导致关于PETuning性能的偏倚和不可靠结论？
RQ2PETuning方法是否能在不同数据资源水平（低、中、高）下持续优于全量微调？
RQ3导致PETuning方法训练过程中出现不稳定性的重要因素有哪些？
RQ4可训练参数数量和训练迭代次数如何影响PETuning方法的稳定性和性能？

主要发现

PETuning方法并未持续优于全量微调；在中等和高资源设置下表现较差，且无任何方法在所有任务上均实现一致的优越性。
Prefix Tuning（PT）显著落后于其他PETuning方法，在大多数任务中表现不佳，尤其在低资源场景下。
所有PETuning方法在不同随机种子下均表现出高度不稳定性，性能因权重初始化和训练数据洗牌而波动剧烈。
在每类PETuning方法内部减少可训练参数数量可提升稳定性，表明更小的参数更新能带来更一致的结果。
增加训练迭代次数通常可降低不稳定性，但在小数据集上长期训练并不能保证性能提升，仍可能导致高方差。
先前研究采用的标准评估协议因数据泄露导致性能估计被高估，从而无效化了PETuning优越性的宣称。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。