QUICK REVIEW

[論文レビュー] SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models

Sara Babakniya, Ahmed Roushdy Elkordy|arXiv (Cornell University)|Aug 12, 2023

Privacy-Preserving Technologies in Data被引用数 9

ひとこと要約

SLoRAは、LoRAを疎なデータ駆動の微調整で準備する2段階の連邦演習PEFT手法を導入し、フル微調整の性能に匹敵しつつ、トレーニング時間と通信を大幅に削減します。約1%の更新密度で同等の精度を達成し、トレーニング時間を最大で90%削減します。

ABSTRACT

Transfer learning via fine-tuning pre-trained transformer models has gained significant success in delivering state-of-the-art results across various NLP tasks. In the absence of centralized data, Federated Learning (FL) can benefit from distributed and private data of the FL edge clients for fine-tuning. However, due to the limited communication, computation, and storage capabilities of edge devices and the huge sizes of popular transformer models, efficient fine-tuning is crucial to make federated training feasible. This work explores the opportunities and challenges associated with applying parameter efficient fine-tuning (PEFT) methods in different FL settings for language tasks. Specifically, our investigation reveals that as the data across users becomes more diverse, the gap between fully fine-tuning the model and employing PEFT methods widens. To bridge this performance gap, we propose a method called SLoRA, which overcomes the key limitations of LoRA in high heterogeneous data scenarios through a novel data-driven initialization technique. Our experimental results demonstrate that SLoRA achieves performance comparable to full fine-tuning, with significant sparse updates with approximately $\sim 1\%$ density while reducing training time by up to $90\%$.

研究の動機と目的

パラメータ効率の良い微調整（PEFT）手法がNLPタスクにおける連邦学習（FL）でデータのヘテロogeneityに対してどのように機能するかを評価する。
既存のPEFTアプローチが非 IID FL設定で抱える限界を特定し、改善を提案する。
FLにおけるPEFTとフル微調整のギャップを埋めるデータ駆動のプライミング技術を開発する。
通信と計算コストを削減しつつ精度を保持する2段階のPrimed-LoRAアプローチを提案・評価する。

提案手法

FLにおける集中型PEFTベースライン（Pfieffer, LoRA, Houlsby, BitFit）を評価し、データヘテロogeneityの変化下での性能を定量化する。
Primed-LoRA（2段階）を導入：Stage 1はSparse Fine-Tuning（SFT）を用いて良好な初期化をプライムする。Stage 2はStage 1の更新のSVD分解に基づくLoRAブロックを適用する。
Stage 1ではサーバー生成のランダムマスクを用いたSparse Fine-Tuningを実装し、更新をデータ非依存かつ通信効率的に保つ。
Stage 2では密結合層に対してLoRAブロックを適用し、ランク(r)を用い、Stage 1の更新のSVD分解をAとB行列の初期化として使用する。
SLoRAをFFT、LoRA、SFTと、異なるデータヘテロogeneity設定（非IID分布）および更新密度の下で比較する。
AlbertとDistilBERTをNews Categoryおよび20News Groupデータセットで用い、トレーニング時間、通信コスト、精度の分析を提供する。

実験結果

リサーチクエスチョン

RQ1データ分布が異なるクライアントを含むFLのNLPタスクにおいて、PEFT手法はどのように機能するか？
RQ2データ駆動のプライミング戦略はFLにおけるPEFTとフル微調整のギャップを埋めることができるか？
RQ3SLoRAは highly non-IID FL設定で通信と計算コストを削減しつつFFTレベルの精度を維持できるか？
RQ4疎更新密度がFL言語モデル微調整における精度、トレーニング時間、通信に与える影響は？

主な発見

PEFTの性能はデータヘテロogeneityが増すにつれてFFTに対して低下する。
高非IID設定のFLにおいてLoRAはFFT性能に到達するのが難しく、収束が遅くなる可能性がある。
SLoRAは約1%の更新密度でFFT精度に匹敵し、トレーニング時間を最大で90%削減する。
Stage 1のサーバー生成マスクによるスパースFine-TuningはStage 2 LoRAに対するデータ効率の高いプライミングを提供する。
Stage 1の更新のSVDから初期化されたStage 2のLoRAは、元のモデルの約1.3%の追加パラメータで強い性能を可能にする。
SLoRAはシード間の安定性が高く、比較精度に到達するための通信ラウンド数が少なくて済む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。