[论文解读] Quantization-Robust LLM Unlearning via Low-Rank Adaptation
该论文提出一种基于 LoRA 的“忘除”框架,在冻结基础大模型权重的同时,将忘记更新集中在可训练的低秩适配器中,在 4 位后训练量化(PTQ)下实现鲁棒忘除。
Large Language Model (LLM) unlearning aims to remove targeted knowledge from a trained model, but practical deployments often require post-training quantization (PTQ) for efficient inference. However, aggressive low-bit PTQ can mask or erase unlearning updates, causing quantized models to revert to pre-unlearning behavior. We show that standard full-parameter fine-tuning often induce parameter changes that are too small to survive 4-bit quantization. We propose quantization-robust unlearning via low-rank adaptation (LoRA): we freeze the base model and concentrate unlearning into trainable adapters so that the effective update is preserved after quantization. On Llama-2-7B evaluated with MUSE dataset (BOOKS and NEWS), LoRA improves 4-bit utility by up to 7.93 points (NPO+GDR on BOOKS: 50.17 to 58.10) and yields higher 4-bit utility on NEWS for GA+GDR (40.06 to 44.82, increase of 4.76). LoRA also substantially reduces privacy leakage under 4-bit PTQ, e.g., for GA+KLR on BOOKS, PrivLeak moves from -25.68 to -5.86 (closer to ideal 0), while maintaining strong forgetting (VerMem and KnowMem near 0). Thus, using LoRA for Machine Unlearning is beneficial for scenarios where quantization is necessary for model deployment.
研究动机与目标
- 推动在部署了后训练量化的 LLM 中对敏感知识进行忘除的问题研究。
- 证明在激进的 4 位 PTQ 下,完整参数更新往往因为权重微小变化而失效。
- 提出基于 Low-Rank Adaptation (LoRA) 的忘除方法,将更新集中在低秩适配器中,并对量化保持鲁棒。
- 证明基于 LoRA 的忘除在 PTQ 之后能够保持忘记效果并减少隐私泄露,与全参数微调相比表现更好。
提出的方法
- 冻结基础模型权重,并在每个线性层引入可训练的低秩适配器(B 在 R^{d×r}, A 在 R^{r×k})。
- 通过 LoRA 项应用忘除更新:h = W0 x + (α/r) B A x,其中 α 为缩放因子。
- 仅对适配器 Φ={A,B} 进行优化,在 PTQ 之前将适配器合并到基础模型。
- 通过 LoRA 在受限子空间中使用更高的学习率,获得更大的有效更新,跨越 PTQ 的量化边界。
- 针对特定模块(如 MLP、注意力机制)以在集中忘除更新的同时保留效用。
- 在 Llama-2-7B 上使用 MUSE 基准,在 BF16、8-bit 和 4-bit PTQ 下比较 LoRA 基于忘除与全参数微调的表现。
实验结果
研究问题
- RQ1量化,尤其是 4-bit PTQ,是否会抹去由标准全参数微调产生的忘除更新?
- RQ2在强量化下,是否将忘除限制在低秩子空间(LoRA)中能否保留忘记信号?
- RQ3在 PTQ 下,LoRA 基于忘除在忘记、隐私泄漏和效用方面与全参数微调相比有何差异?
- RQ4使用 LoRA 时,哪些数据设置(BOOKS 与 NEWS)以及哪些正则化策略(GDR、KLR)显示出最强的量化鲁棒性?
- RQ5哪些实际超参数(秩、缩放、学习率)能够最大化 LoRA 忘除的量化鲁棒性?
主要发现
- 在 4-bit PTQ 下, fully-precision 忘除由于更新很小而易被量化掩盖而降级。
- LoRA 基于忘除,在 PTQ 之前合并适配器后,能够在 4-bit 量化下保留忘记信号。
- 在 BOOKS 上,LoRA 在若干配置(如 GA+GDR、GA+KLR)下,在 4-bit PTQ 中提升忘记并降低隐私泄漏。
- 在 NEWS 上,LoRA 在 GA+GDR 配置下获得更高的 4-bit 效用,并相较于全参数微调减少效用降幅(GA+KLR)。
- LoRA 在 NPO 设置中加强忘记,并在多种配置下表现出 PTQ 稳定性,部分设置在全精度与 Int4 之间的指标接近不变。
- 总的来说,LoRA 提供了量化鲁棒的忘除,在忘记、隐私和效用之间的平衡往往优于 Full-FT。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。