Skip to main content
QUICK REVIEW

[论文解读] LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights

Kasun Tharuka Dewage, Marianna Pensky|arXiv (Cornell University)|Feb 19, 2026
Image Enhancement Techniques被引用 0
一句话总结

CRAFT 是一种参数高效的微调方法,对堆叠的多层预训练注意力权重执行完整的 Tucker 分解,冻结因子,学习较小的自适应矩阵以在 RoBERTa 模型上实现极低的可训练参数量。

ABSTRACT

We introduce CRAFT (Cross-layer Rank Adaptation via Frozen Tucker), a parameter-efficient fine-tuning (PEFT) method that applies Tucker tensor decomposition to pre-trained attention weight matrices stacked across transformer layers and trains only small square adaptation matrices on the resulting frozen Tucker factors. Existing tensor-based PEFT methods decompose gradient updates: LoTR applies Tucker decomposition with shared factor matrices, while SuperLoRA groups and reshapes $ΔW$ across layers before applying Tucker decomposition. Separately, methods like PiSSA apply SVD to pre-trained weights but operate independently per layer. CRAFT bridges these two lines of work: it performs full Tucker decomposition via Higher-Order SVD (HOSVD) directly on pre-trained weights organized as cross-layer 3D tensors, freezes all resulting factors, and adapts the model through lightweight trainable transformations applied to each factor matrix. Experiments on the GLUE benchmark using RoBERTa-base and RoBERTa-large demonstrate that CRAFT achieves competitive performance with existing methods while requiring only 41K Tucker adaptation parameters--a count independent of model dimension and depth at fixed Tucker ranks.

研究动机与目标

  • 通过利用注意力权重中的跨层相关性来推动大模型的参数高效微调。
  • 提出对跨层的预训练 Q 和 V 权重堆叠进行冻结的 Tucker-3 分解。
  • 引入在冻结 Tucker 因子的同时对权重进行轻量级可训练自适应矩阵的操作,以保留原始权重。
  • 展示该方法在可训练参数显著更少且存储需求显著降低的情况下仍能达到具有竞争力的准确性。

提出的方法

  • 将跨层的预训练 Q 和 V 权重矩阵堆叠,形成每种投影类型(Q、V)的三维张量。
  • 通过对堆叠权重使用高阶奇异值分解(HOSVD)计算完整的 Tucker-3 分解,获得冻结因子 U(1)、U(2)、U(3) 和核 G。
  • 从因子构建冻结重构 R,并保持残差保持方案,使初始化能够精确恢复预训练权重。
  • 引入对每个因子应用的小型可训练方形自适应矩阵 J(1)、J(2)、J(3)(初始化接近单位矩阵)。
  • 仅通过梯度下降更新自适应矩阵,使用残差形式 W_hat = W + (G×1(U(1)J(1))×2(U(2)J(2))×3(U(3)J(3)) − R)。
  • 在自适应方面选择 Q 和 V 投影,保持 K 和 O 投影冻结,以在表达能力和参数效率之间取得平衡。

实验结果

研究问题

  • RQ1是否能够通过完整 Tucker-3 分解捕捉到预训练注意力权重的跨层相关性,从而实现参数高效微调?
  • RQ2冻结 Tucker 因子并通过小矩阵进行自适应是否能在可训练参数明显更少的情况下达到与逐层或梯度为基础的 PEFT 方法相当的性能?
  • RQ3对 RoBERTa,在固定 Tucker 秩的情况下,Tucker 秩、参数数量与下游任务(如 GLUE)的准确率之间存在何种权衡?
  • RQ4残差保持的自适应方案在初始化和优化中是否稳定且有效?

主要发现

ModelMethod# ParamsMNLISST-2MRPCCoLAQNLIQQPRTESTS-BAvg.
RoBERTa baseFT ∗125.0M87.694.890.263.692.891.978.791.286.4
RoBERTa baseBitFit ∗0.1M84.793.792.762.091.884.081.590.885.2
RoBERTa baseAdpt D ∗0.3M87.194.288.560.893.190.271.589.784.4
RoBERTa baseAdpt D ∗0.9M87.394.788.462.693.090.675.990.385.4
RoBERTa baseLoRA ∗0.3M87.595.189.763.493.390.886.691.587.2
RoBERTa baseCRAFT (ours)0.04M85.795.189.259.092.089.075.890.484.5
RoBERTa largeFT ∗355.0M90.296.490.968.094.792.286.692.488.9
RoBERTa largeLoRA ∗0.8M90.696.290.968.294.991.687.492.689.0
RoBERTa largeAdpt P †3.0M90.296.190.268.394.891.983.892.188.4
RoBERTa largeAdpt P †0.8M90.596.689.767.894.891.780.191.987.9
RoBERTa largeAdpt H †6.0M89.996.288.766.594.792.183.491.087.8
RoBERTa largeAdpt H †0.8M90.396.387.766.394.791.572.991.586.4
RoBERTa largeLoRA †0.8M90.696.290.268.294.891.685.292.388.6
RoBERTa largeCRAFT (ours)0.04M90.296.290.267.794.789.784.291.488.0
  • CRAFT 在 RoBERTa-base 和 RoBERTa-large 上实现了具有竞争力的 GLUE 结果,同时仅使用 41K Tucker 自适应参数(在固定秩下,与模型维度和深度无关)。
  • 对于 RoBERTa-large,CRAFT 与适配器风格基线的表现相当,自适应参数大约少 75×,且平均水平接近最佳基线的一个点内。
  • CRAFT 的参数量在固定 Tucker 秩下与模型深度和宽度无关,而像 LoRA 或 PiSSA 等逐层方法会随 N_L 或 d 增长而增加。
  • 该方法通过用紧凑的 Tucker 因子加上小型自适应矩阵替代全的逐层权重,提供显著的存储优势,使部署更加高效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。