[논문 리뷰] RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation
RoSA는 저랭크 어댑터와 희소 어댑터를 결합하여 같은 예산에서 파라미터의 일부로 거의 전체 파인튜닝 정확도를 달성하고, 동일 예산 하에서 LoRA와 Sparse Adaptation보다 우수하며 일부 작업에서 FFT와도 대등하게 매칭한다. 또한 효율적인 희소 GPU 커널과 양자화 변형(QRoSA)을 가능하게 한다.
We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis that jointly trains $ extit{low-rank}$ and $ extit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms LoRA, pure sparse fine-tuning, and alternative hybrid methods at the same parameter budget, and can even recover the performance of FFT on some tasks. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training, and show that it is also compatible with low-precision base weights, resulting in the first joint representation combining quantization, low-rank and sparse approximations. Our code is available at https://github.com/IST-DASLab/RoSA.
연구 동기 및 목표
- 대형 언어 모델에서 제한된 계산/메모리 환경에서 PEFT를 고무한다.
- 저랭크 및 희소 구성요소를 결합한 견고한 적응 방법을 제안하여 FFT 업데이트를 보다 잘 근사하도록 한다.
- GPU에서 희소 및 저랭크 어댑터를 위한 효율적인 시스템 구현을 개발한다.
- 동일 예산에서 RoSA가 도전적인 작업에서 FFT 성능과 대등하게 맞춰질 수 있음을 보여준다.
제안 방법
- RoSA를 사전 학습된 가중치에 추가된 저랭크 어댑터와 희소 어댑터의 공동 최적화로 공식화한다.
- 데이터 기반 TopK 기반 마스크 생성 절차(Algorithm 1)를 사용하여 희소성 마스크를 생성한다.
- 기축 가중치를 고정한 채로 저랭크 어댑터와 희소 어댑터를 병렬로 학습한다.
- 희소성 구조를 활용하기 위해 특수한 SDDMM 커널과 함께 희소-밀집 역전파를 통합한다.
- RoSA를 QRoSA로 확장하여 RoSA에 가중치 양자화를 결합한다(QLoRA 호환).
- GPU용으로 CSR-희소 저장소와 효율적 커널 지원을 갖춘 PyTorch 기반 시스템 구현을 제공한다.
실험 결과
연구 질문
- RQ1복잡한 다운스트림 작업에서 저랭크-희소 결합 적응이 FFT 업데이트를 더 잘 근사할 수 있는가?
- RQ2다양한 작업에서 RoSA 어댑터가 동일 파라미터/메모리 예산으로 LoRA와 SpA보다 더 높은 정확도를 제공하는가?
- RQ3정밀도 손실 없이 효율성을 더 개선하기 위해 RoSA가 가중치 양자화와 호환되는가?
- RQ4희소 역전파/순전파 커널을 갖춘 GPU 하드웨어에서 RoSA의 실제 시스템 성능은 어떠한가?
주요 결과
- RoSA는 같은 예산에서 여러 작업(GSM8k, ViGGO, SQL)에서 LoRA 및 Sparse Adaptation을 능가한다.
- RoSA는 여러 데이터셋에서 단일 에포크 실험에서 FFT 정확도에 맞추거나 더 나아가 이를 능가할 수 있다.
- 연장 학습에서 RoSA는 GSM8k 및 ViGGO에서 FFT와 일치하거나 상회를 보이며 예산 전반에 걸쳐 대안을 일반적으로 능가한다.
- RoSA는 양자화(QRoSA)와의 결합 표현을 지원하여 특정 작업에서 정확도를 유지하거나 향상시키는 동시에 메모리를 추가로 감소시킨다.
- 데이터 기반 기울기 기반 TopK 방법을 통한 마스크 생성은 여러 대안 마스킹 전략을 능가하는 효과적인 희소성 패턴을 산출한다.
- 시스템 수준 RoSA 커널은 희소 어댑터에 대해 메모리 및 계산 효율적인 역전파를 제공하여 이전의 희소 커널 대비 속도향상을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.