[論文レビュー] LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights
CRAFT は層を超えて積み重ねた事前学習済みアテンション重みに全 Tucker 分解を適用し、因子を固定して小さな適応行列を学習させることで RoBERTa モデルを超低トレーニング可能パラメータで微調整するパラメータ効率の高い微調整法です。
We introduce CRAFT (Cross-layer Rank Adaptation via Frozen Tucker), a parameter-efficient fine-tuning (PEFT) method that applies Tucker tensor decomposition to pre-trained attention weight matrices stacked across transformer layers and trains only small square adaptation matrices on the resulting frozen Tucker factors. Existing tensor-based PEFT methods decompose gradient updates: LoTR applies Tucker decomposition with shared factor matrices, while SuperLoRA groups and reshapes $ΔW$ across layers before applying Tucker decomposition. Separately, methods like PiSSA apply SVD to pre-trained weights but operate independently per layer. CRAFT bridges these two lines of work: it performs full Tucker decomposition via Higher-Order SVD (HOSVD) directly on pre-trained weights organized as cross-layer 3D tensors, freezes all resulting factors, and adapts the model through lightweight trainable transformations applied to each factor matrix. Experiments on the GLUE benchmark using RoBERTa-base and RoBERTa-large demonstrate that CRAFT achieves competitive performance with existing methods while requiring only 41K Tucker adaptation parameters--a count independent of model dimension and depth at fixed Tucker ranks.
研究の動機と目的
- 大規模トランスフォーマーのパラメータ効率の高い微調整を、アテンション重みのクロス層相関を活用して動機付ける。
- 層をまたいだ事前学習済み Q および V 重みスタックの frozen Tucker-3 分解を提案する。
- frozen Tucker 因子を操作しつつ、元の重みを保持する軽量な学習可能適応行列を導入する。
- 残差保存スキームを維持しながら初期化ですべての重みを正確に回復できることを示す。
提案手法
- 各 projection タイプ(Q, V)ごとに事前学習済みの Q および V 重み行列を層ごとにスタックして 3D テンソルを形成する。
- スタックされた重みに対して Higher-Order SVD (HOSVD) による全 Tucker-3 分解を計算し、固定された因子 U(1), U(2), U(3) と コア G を得る。
- 因子から固定復元 R を構築し、初期化が事前学習済みの重みによって正確に再現されるよう残差保存スキームを維持する。
- 各因子(初期値は単位行列付近)に適用する小さな学習可能な正方行列 J(1), J(2), J(3) を導入する。
- 勾配降下法によって適応行列のみを更新し、残差形式 W_hat = W + (G×1(U(1)J(1))×2(U(2)J(2))×3(U(3)J(3)) − R) を用いる。
- 適応には Q および V の Projection を選択し、K および O の Projection は固定のままにして、表現力とパラメータ効率のバランスを取る。
実験結果
リサーチクエスチョン
- RQ1事前学習済みアテンション重みの層を超えた相関を全 Tucker-3 分解で捉え、パラメータ効率の高い微調整を実現できるか。
- RQ2 Tucker 因子を固定し、小さな行列で適応することで、レイヤーごとや勾配ベースの PEFT 手法よりもはるかに少ない可託パラメータで競争力のある性能を得られるか。
- RQ3 Tucker ランク、パラメータ数、および RoBERTa の GLUE 下での下流タスク精度のトレードオフはどうなるか。
- RQ4 残差保存型適応スキームは初期化と最適化に対して安定かつ効果的か。
主な発見
| Model | Method | # Params | MNLI | SST-2 | MRPC | CoLA | QNLI | QQP | RTE | STS-B | Avg. |
|---|---|---|---|---|---|---|---|---|---|---|---|
| RoBERTa base | FT ∗ | 125.0M | 87.6 | 94.8 | 90.2 | 63.6 | 92.8 | 91.9 | 78.7 | 91.2 | 86.4 |
| RoBERTa base | BitFit ∗ | 0.1M | 84.7 | 93.7 | 92.7 | 62.0 | 91.8 | 84.0 | 81.5 | 90.8 | 85.2 |
| RoBERTa base | Adpt D ∗ | 0.3M | 87.1 | 94.2 | 88.5 | 60.8 | 93.1 | 90.2 | 71.5 | 89.7 | 84.4 |
| RoBERTa base | Adpt D ∗ | 0.9M | 87.3 | 94.7 | 88.4 | 62.6 | 93.0 | 90.6 | 75.9 | 90.3 | 85.4 |
| RoBERTa base | LoRA ∗ | 0.3M | 87.5 | 95.1 | 89.7 | 63.4 | 93.3 | 90.8 | 86.6 | 91.5 | 87.2 |
| RoBERTa base | CRAFT (ours) | 0.04M | 85.7 | 95.1 | 89.2 | 59.0 | 92.0 | 89.0 | 75.8 | 90.4 | 84.5 |
| RoBERTa large | FT ∗ | 355.0M | 90.2 | 96.4 | 90.9 | 68.0 | 94.7 | 92.2 | 86.6 | 92.4 | 88.9 |
| RoBERTa large | LoRA ∗ | 0.8M | 90.6 | 96.2 | 90.9 | 68.2 | 94.9 | 91.6 | 87.4 | 92.6 | 89.0 |
| RoBERTa large | Adpt P † | 3.0M | 90.2 | 96.1 | 90.2 | 68.3 | 94.8 | 91.9 | 83.8 | 92.1 | 88.4 |
| RoBERTa large | Adpt P † | 0.8M | 90.5 | 96.6 | 89.7 | 67.8 | 94.8 | 91.7 | 80.1 | 91.9 | 87.9 |
| RoBERTa large | Adpt H † | 6.0M | 89.9 | 96.2 | 88.7 | 66.5 | 94.7 | 92.1 | 83.4 | 91.0 | 87.8 |
| RoBERTa large | Adpt H † | 0.8M | 90.3 | 96.3 | 87.7 | 66.3 | 94.7 | 91.5 | 72.9 | 91.5 | 86.4 |
| RoBERTa large | LoRA † | 0.8M | 90.6 | 96.2 | 90.2 | 68.2 | 94.8 | 91.6 | 85.2 | 92.3 | 88.6 |
| RoBERTa large | CRAFT (ours) | 0.04M | 90.2 | 96.2 | 90.2 | 67.7 | 94.7 | 89.7 | 84.2 | 91.4 | 88.0 |
- CRAFT は RoBERTa-base および RoBERTa-large で競争力のある GLUE 結果を達成しつつ、41K の Tucker 適応パラメータのみを使用する(モデル次元および深さに依存せず固定ランクの場合)。
- RoBERTa-large では、CRAFT はアダプタ型のベースラインとほぼ同等の性能を、適応パラメータを約 75 倍削減して平均で最良ベースラインの1点程度の差に留めた。
- CRAFT のパラメータ数は、固定 Tucker ランクのままでモデルの深さや幅に独立してスケールするのに対し、LoRA や PiSSA のようなレイヤーごとの手法は N_L や d に比例してスケールする。
- 本手法は各レイヤーの全重みをコンパクトな Tucker 因子と小さな適応行列に置換することで大幅なストレージ節約を実現し、効率的なデプロイを可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。