QUICK REVIEW

[논문 리뷰] SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models

Sara Babakniya, Ahmed Roushdy Elkordy|arXiv (Cornell University)|2023. 08. 12.

Privacy-Preserving Technologies in Data인용 수 9

한 줄 요약

SLoRA는 풀 파인튜닝 성능과 일치하도록 희소한 데이터 기반 미세조정으로 LoRA를 프라임하는 두단계 연합 PEFT 방법을 도입하여 학습 시간과 통신을 크게 줄입니다. ~1% 업데이트 밀도로 비슷한 정확도를 달성하고 최대 90%의 학습 시간 절감 효과를 보입니다.

ABSTRACT

Transfer learning via fine-tuning pre-trained transformer models has gained significant success in delivering state-of-the-art results across various NLP tasks. In the absence of centralized data, Federated Learning (FL) can benefit from distributed and private data of the FL edge clients for fine-tuning. However, due to the limited communication, computation, and storage capabilities of edge devices and the huge sizes of popular transformer models, efficient fine-tuning is crucial to make federated training feasible. This work explores the opportunities and challenges associated with applying parameter efficient fine-tuning (PEFT) methods in different FL settings for language tasks. Specifically, our investigation reveals that as the data across users becomes more diverse, the gap between fully fine-tuning the model and employing PEFT methods widens. To bridge this performance gap, we propose a method called SLoRA, which overcomes the key limitations of LoRA in high heterogeneous data scenarios through a novel data-driven initialization technique. Our experimental results demonstrate that SLoRA achieves performance comparable to full fine-tuning, with significant sparse updates with approximately $\sim 1\%$ density while reducing training time by up to $90\%$.

연구 동기 및 목표

데이터 이질성 하에서 NLP 과제에서 Federated Learning(FL)에서 매개변수 효율적 미세조정(PEFT) 방법의 성능을 평가한다.
비 IID FL 설정에서 기존 PEFT 접근법의 한계를 식별하고 개선점을 제안한다.
FL에서 PEFT와 전체 파인튜닝 간 격차를 줄이기 위한 데이터 기반 프라이밍 기법을 개발한다.
통신 및 계산 비용을 줄이면서 정확도를 보존하는 두 단계 Primed-LoRA 접근법을 제안하고 평가한다.]
method:[

제안 방법

FL에서 중앙집중식 PEFT 기본선(Pfieffer, LoRA, Houlsby, BitFit)을 평가하고 다양한 데이터 이질성 하에서 성능을 정량화한다.
Primed-LoRA(두 단계) 도입: 1단계는 희소 미세조정(SFT)을 사용하여 좋은 초기화를 프라이밍; 2단계는 1단계 업데이트의 SVD 분해를 기반으로 LoRA를 적용한다.
1단계에서 업데이트를 데이터 독립적으로 유지하고 통신 효율을 높이기 위해 서버가 생성한 무작위 마스크를 사용하는 Sparse Fine-Tuning(SFT)을 구현한다.
2단계에서 Dense 계층에 LoRA 블록을 적용하되 랭크(r)로 설정하고 1단계 업데이트의 SVD 분해를 A, B 매트릭스의 초기화로 사용한다.
다른 데이터 이질성 설정(non-IID 분포) 및 업데이트 밀도에서 SLoRA를 FFT, LoRA 및 SFT와 비교한다.
News Category와 20News Group 데이터셋에서 Albert와 DistilBERT에 대한 학습 시간, 통신 비용, 정확도를 분석한다.

실험 결과

연구 질문

RQ1이질적 클라이언트 데이터 분포에서 FL NLP 과제에서 PEFT 방법은 어떻게 성능을 발휘하는가?
RQ2데이터 기반 프라이밍 전략이 FL에서 PEFT와 Full Fine-Tuning 간의 격차를 해소할 수 있는가?
RQ3고도로 비 IID FL 설정에서 SLoRA가 FFT 수준의 정확도를 보존하면서 통신 및 계산 비용을 줄이는가?
RQ4희소 업데이트 밀도가 Federated Language Model 미세조정의 정확도, 학습 시간 및 통신에 미치는 영향은 무엇인가?

주요 결과

데이터 이질성이 증가함에 따라 PEFT의 성능이 FFT에 비해 저하된다.
비 IID가 큰 FL 환경에서 LoRA는 FFT 성능에 도달하기 어렵고 수렴 속도가 느릴 수 있다.
SLoRA는 FFT 정확도와 일치하며 약 1%의 업데이트 밀도를 사용하고 학습 시간을 최대 90%까지 단축한다.
1단계의 서버 생성 마스크를 이용한 Sparse Fine-Tuning은 2단계 LoRA를 위한 데이터 효율적 프라이밍을 제공한다.
2단계 LoRA는 1단계 업데이트의 SVD로 초기화되어 원래 모델의 약 1.3%의 추가 매개변수로도 강한 성능을 가능하게 한다.
SLoRA는 시드 간 안정성이 더 높고 비슷한 정확도에 도달하기 위해 필요한 통신 라운드가 더 적다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.