[论文解读] High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning
SMoA,是一种高秩结构化调制适配器,通过将预训练光谱能量划分为多个子空间来扩展LoRA的有效秩,在没有额外参数开销的情况下提高PEFT在各类任务上的性能。
As the number of model parameters increases, parameter-efficient fine-tuning (PEFT) has become the go-to choice for tailoring pre-trained large language models. Low-rank Adaptation (LoRA) uses a low-rank update method to simulate full parameter fine-tuning, which is widely used to reduce resource requirements. However, decreasing the rank encounters challenges with limited representational capacity when compared to full parameter fine-tuning. We present extbf{SMoA}, a high-rank extbf{S}tructured extbf{MO}dulation extbf{A}dapter that uses fewer trainable parameters while maintaining a higher rank, thereby improving the model's representational capacity and offering improved performance potential. The core idea is to freeze the original pretrained weights and selectively amplify or suppress important features of the original weights across multiple subspaces. The subspace mechanism provides an efficient way to increase the capacity and complexity of a model. We conduct both theoretical analyses and empirical studies on various tasks. Experiment results show that SMoA outperforms LoRA and its variants on 10 tasks, with extensive ablation studies validating its effectiveness.
研究动机与目标
- 在在大语言模型的完整微调成本下,激发参数高效微调(PEFT)的动力。
- 通过引入高秩、结构化的自适应来解决LoRA在低秩下的表示能力受限问题。
- 提出SMoA,通过对预训练权重进行多子空间光谱调制,在不增加额外参数开销的前提下提高有效秩。
- 从理论分析秩的性质并在跨多个骨干模型的多样基准上对SMoA进行实证验证。
提出的方法
- 通过对W0进行奇异值分解,将预训练权重更新分解为多个子空间:W0 = U Σ V^T。
- 通过使累计光谱能量E(i)相等,将特征方向划分为K个不相交的子集。
- 在每个子空间附加一个LoRA模块,具有不同的A_k、B_k,以及一个固定、不可学习的光谱调制˜Σ_k。
- 将子空间更新计算为ˆΔW_k = (B_k A_k) ⊙ ˜Σ_k,并将它们连接成总的ΔW。
- 通过在子空间之间分配容量、避免重叠、实现参数预算的高效再利用,从而维持比LoRA更高的秩上界。
- 在Llama-2-7B和Llama-3-8B上,与LoRA、DoRA、MoRA、HiRA、SSMLoRA、MeLoRA等基线进行比较。
实验结果
研究问题
- RQ1在相同参数预算下,SMoA是否能实现比LoRA更高的有效秩?
- RQ2将自适应分布在多个光谱子空间上是否改进了在多样化NLP任务上的性能?
- RQ3与强基线PEFT比较,SMoA在常识推理、对话和数学推理上的表现如何?
- RQ4子空间数量K和秩r对性能和效率的影响如何?
- RQ5SMoA在不同骨干模型(如Llama-2-7B、Llama-3-8B)上的鲁棒性如何?
主要发现
- 在常识推理任务上,SMoA在LLaMA骨干的PEFT方法中取得最先进的性能(在r=32、n=2时,LLaMA-2-7B的平均分为82.08,LLaMA-3-8B的平均分为87.35)。
- 在CONVAI2对话任务上,r=32、n=2的SMoA取得最高的平均分(LLaMA-2-7B为47.81,LLaMA-3-8B为48.42)。
- 在GSM8K数学推理上,SMoA达到72.14%的准确率,优于LoRA(65.89%)、DoRA(66.12%)和MoRA(67.89%)。
- SMoA在各r值下显示更高的推断更新秩,相比r增大时秩显著提升。
- 等秩分析表明,SMoA在甚至在如2×8这样的配置下,通常在需要更少的可训练参数的情况下实现更好或可比的结果。
- 理论分析表明,在相同预算下,SMoA通过子空间Hadamard调制和不重叠子空间可以达到比LoRA更高且更灵活的秩。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。