[논문 리뷰] LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights
CRAFT는 층 간 스택된 사전 학습된 어텐션 가중치에 전체 Tucker 분해를 적용하고, 요인을 고정시키며 작은 적응 매트릭스를 학습하여 RoBERTa 모델을 초저 학습 가능 매개변수로 조정하는 매개변수 효율적인 미세 조정 방법이다.
We introduce CRAFT (Cross-layer Rank Adaptation via Frozen Tucker), a parameter-efficient fine-tuning (PEFT) method that applies Tucker tensor decomposition to pre-trained attention weight matrices stacked across transformer layers and trains only small square adaptation matrices on the resulting frozen Tucker factors. Existing tensor-based PEFT methods decompose gradient updates: LoTR applies Tucker decomposition with shared factor matrices, while SuperLoRA groups and reshapes $ΔW$ across layers before applying Tucker decomposition. Separately, methods like PiSSA apply SVD to pre-trained weights but operate independently per layer. CRAFT bridges these two lines of work: it performs full Tucker decomposition via Higher-Order SVD (HOSVD) directly on pre-trained weights organized as cross-layer 3D tensors, freezes all resulting factors, and adapts the model through lightweight trainable transformations applied to each factor matrix. Experiments on the GLUE benchmark using RoBERTa-base and RoBERTa-large demonstrate that CRAFT achieves competitive performance with existing methods while requiring only 41K Tucker adaptation parameters--a count independent of model dimension and depth at fixed Tucker ranks.
연구 동기 및 목표
- 대규모 트랜스포머의 매개변수 효율적인 미세 조정을 위해 어텐션 가중치의 층 간 상관관계를 활용한다.
- 사전 학습된 Q 및 V 가중치 스택 across layers에 대한 frozen Tucker-3 분해를 제안한다.
- 원래 가중치를 보존하는 잔차-보존 방식으로 동작하는 작고 학습 가능한 적응 매트릭스를 도입한다.
- 메소드가 고정된 Tucker 순위에서 상당히 적은 학습 가능한 매개변수 및 저장 필요로 경쟁력 있는 정확도를 달성함을 보인다.
제안 방법
- 각 투Projection 타입(Q, V)에 대해 층 간 사전 학습된 Q 및 V 가중치 행렬을 스택하여 3D 텐서를 형성한다.
- 스택된 가중치에 대해 Higher-Order SVD(HOSVD)를 이용한 전체 Tucker-3 분해를 수행하여 고정된 인자 U(1), U(2), U(3)와 코어 G를 얻는다.
- 인자를 기반으로 한 고정 재구성을 R로 구성하고 잔차-보존 체계를 유지하여 초기화가 정확히 사전 학습된 가중치를 복원하도록 한다.
- 각 인자에 적용되는 작은 학습 가능한 정방형 적응 매트릭스 J(1), J(2), J(3)를 도입한다(초기화는 항등에 가깝게 설정).
- 그래디언트 하강법으로 적응 매트릭스만 업데이트하며 잔차 공식을 사용한다: W_hat = W + (G×1(U(1)J(1))×2(U(2)J(2))×3(U(3)J(3)) − R).
- 적응을 위해 Q 및 V 투Projection을 선택하고 K 및 O 투Projection은 고정하여 표현력과 매개변수 효율의 균형을 맞춘다.
실험 결과
연구 질문
- RQ1사전 학습된 어텐션 가중치의 층 간 상관관계가 전체 Tucker-3 분해를 통해 매개변수 효율적인 미세 조정을 가능하게 하는가?
- RQ2 Tucker 인자를 고정하고 작은 매트릭스로 적응하는 방식이 층별 또는 그래디언트 기반 PEFT 방법에 비해 학습 가능한 매개변수가 현저히 적으면서도 경쟁력 있는 성능을 보이는가?
- RQ3RoBERTa에서 GLUE 작업의 Tucker 순위, 매개변수 수 및 하류 작업 정확도 사이의 트레이드오프는 어떠한가?
- RQ4잔차-보존 적응 체계가 초기화 및 최적화에 대해 안정적이고 효과적인가?
주요 결과
| Model | Method | # Params | MNLI | SST-2 | MRPC | CoLA | QNLI | QQP | RTE | STS-B | Avg. |
|---|---|---|---|---|---|---|---|---|---|---|---|
| RoBERTa base | FT ∗ | 125.0M | 87.6 | 94.8 | 90.2 | 63.6 | 92.8 | 91.9 | 78.7 | 91.2 | 86.4 |
| RoBERTa base | BitFit ∗ | 0.1M | 84.7 | 93.7 | 92.7 | 62.0 | 91.8 | 84.0 | 81.5 | 90.8 | 85.2 |
| RoBERTa base | Adpt D ∗ | 0.3M | 87.1 | 94.2 | 88.5 | 60.8 | 93.1 | 90.2 | 71.5 | 89.7 | 84.4 |
| RoBERTa base | Adpt D ∗ | 0.9M | 87.3 | 94.7 | 88.4 | 62.6 | 93.0 | 90.6 | 75.9 | 90.3 | 85.4 |
| RoBERTa base | LoRA ∗ | 0.3M | 87.5 | 95.1 | 89.7 | 63.4 | 93.3 | 90.8 | 86.6 | 91.5 | 87.2 |
| RoBERTa base | CRAFT (ours) | 0.04M | 85.7 | 95.1 | 89.2 | 59.0 | 92.0 | 89.0 | 75.8 | 90.4 | 84.5 |
| RoBERTa large | FT ∗ | 355.0M | 90.2 | 96.4 | 90.9 | 68.0 | 94.7 | 92.2 | 86.6 | 92.4 | 88.9 |
| RoBERTa large | LoRA ∗ | 0.8M | 90.6 | 96.2 | 90.9 | 68.2 | 94.9 | 91.6 | 87.4 | 92.6 | 89.0 |
| RoBERTa large | Adpt P † | 3.0M | 90.2 | 96.1 | 90.2 | 68.3 | 94.8 | 91.9 | 83.8 | 92.1 | 88.4 |
| RoBERTa large | Adpt P † | 0.8M | 90.5 | 96.6 | 89.7 | 67.8 | 94.8 | 91.7 | 80.1 | 91.9 | 87.9 |
| RoBERTa large | Adpt H † | 6.0M | 89.9 | 96.2 | 88.7 | 66.5 | 94.7 | 92.1 | 83.4 | 91.0 | 87.8 |
| RoBERTa large | Adpt H † | 0.8M | 90.3 | 96.3 | 87.7 | 66.3 | 94.7 | 91.5 | 72.9 | 91.5 | 86.4 |
| RoBERTa large | LoRA † | 0.8M | 90.6 | 96.2 | 90.2 | 68.2 | 94.8 | 91.6 | 85.2 | 92.3 | 88.6 |
| RoBERTa large | CRAFT (ours) | 0.04M | 90.2 | 96.2 | 90.2 | 67.7 | 94.7 | 89.7 | 84.2 | 91.4 | 88.0 |
- CRAFT는 RoBERTa-base 및 RoBERTa-large에서 41K Tucker 적응 매개변수만 사용하면서도 경쟁력 있는 GLUE 결과를 달성한다(고정된 순위에서 모델 차원 및 깊이에 독립).
- RoBERTa-large의 경우, CRAFT는 어댑터 스타일 베이스라인과 비교해 약 75× 더 적은 적응 매개변수로 동등한 수준의 성능을 보이고 평균적으로 최상위 베이스라인에 1포인트 이내이다.
- CRAFT의 매개변수 수는 고정 Tucker 순위에서 모델 깊이 및 폭과 독립적으로 스케일되며, LoRA나 PiSSA처럼 계층당(N_L) 또는 차원(d)과 함께 확장되지 않는다.
- 메서드는 각 레이어의 가중치를 전체 Tucker 인자와 소규모 적응 매트릭스의 조합으로 압축 대체함으로써 저장 공간을 크게 절약하고 효율적인 배치를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.