[논문 리뷰] Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
본 논문은 SFT delta 파라미터를 희소화하기 위한 간단한 drop-and-rescale 방법인 DARE를 제시한다. 이를 통해 여러 동종 LMs의 능력을 무손실로 흡수하고 재훈련이나 GPUs 없이 단일 모델로 효과적으로 병합할 수 있다.
In this paper, we unveil that Language Models (LMs) can acquire new capabilities by assimilating parameters from homologous models without retraining or GPUs. We first introduce DARE to set most delta parameters (i.e., the disparity between fine-tuned and pre-trained parameters) to zeros without affecting the abilities of Supervised Fine-Tuning (SFT) LMs, which randomly Drops delta parameters with a ratio $p$ And REscales the remaining ones by $1 / (1 - p)$ to approximate the original embeddings. Then, we use DARE as a versatile plug-in to sparsify delta parameters of multiple SFT homologous models for mitigating parameter interference and merge them into a single model by parameter fusing. We experiment with encoder- and decoder-based LMs, showing that: (1) SFT delta parameter value ranges are typically small (within 0.002) with extreme redundancy, and DARE can effortlessly eliminate 90% or even 99% of them; (2) DARE can merge multiple task-specific LMs into one LM with diverse capabilities. Notably, this phenomenon is more pronounced in large-scale LMs, where the merged LM reveals the potential to surpass the performance of any source LM, providing a new discovery. We also utilize DARE to create a merged LM that ranks first among models with 7 billion parameters on the Open LLM Leaderboard.
연구 동기 및 목표
- SFT delta 파라미터가 매우 중복되며 성능 저하 없이 상당히 축소될 수 있음을 동기로 제시하고 실증한다.
- 추론을 위해 원래 임베딩을 보존하면서 delta 파라미터를 드랍하고 재스케일링하는 DARE를 도입한다.
- DARE가 다수의 동종 SFT LMs를 다양한 능력을 갖춘 단일 모델로 효과적으로 병합할 수 있음을 보여준다.
- GLUE, GSM8K, MATH, 코드 생성 벤치마크를 포함한 인코더- 및 디코더 기반 LM에서 DARE를 평가한다.
- DARE 작동 시점, 한계 및 가지치기와 모델 병합 연구 문헌과의 관계에 대한 지침을 제공한다.
제안 방법
- delta 파라미터를 SFT 파라미터와 사전 학습 파라미터의 차이로 정의한다.
- DARE: 비율 p로 delta 파라미터를 임의로 제거하고 남은 파라미터를 1/(1-p)로 재스케일한다.
- 재스케일 계수를 1/(1-p)로 설정하면 기대 임베딩을 보존하여 가지치어진 집합으로 추론이 가능하다고 추론한다.
- 기존 모델 병합 방법들(평균 병합, 작업 산술, Fisher 병합, RegMean, TIES-병합)에 대한 플러그인으로 DARE를 적용한다.
- GLUE, AlpacaEval, GSM8K, MATH, HumanEval, MBPP, Open LLM Leaderboard 벤치마크와 같은 데이터셋을 사용하여 인코더- 및 디코더 기반 LM에서 성능 유지 및 병합 이점을 평가한다.
- delta 파라미터 스케일, 백본 선택 등 DARE의 선행 조건을 조사하고 크기 기반 가지치리와 비교한다.
실험 결과
연구 질문
- RQ1DARE가 의미 있는 LM 능력 손실 없이 SFT delta 파라미터를 크게 축소할 수 있는가?
- RQ2DARE 적용이 다수의 작업 특화 동종 LM을 다양한 능력을 갖춘 단일 모델로 효과적으로 병합하는 데 도움이 되는가?
- RQ3모델 크기, 백본 및 delta 파라미터 크기에 대한 DARE의 실제 한계는 무엇인가?
- RQ4전통적인 크기 기반 가지치리 및 다른 병합 전략과 비교하여 능력을 보존하거나 향상시키는 측면에서 DARE는 어떤 차이가 있는가?
- RQ5얼마나 delta 파라미터 범위, 사전 학습 신호 등의 조건이 DARE 실행 가능성을 결정하는가?
주요 결과
- SFT delta 파라미터는 매우 중복성이 높다; DARE는 더 큰 LMs에서 성능에 미미한 영향을 주면서 delta 파라미터의 90%~99%를 제거할 수 있다.
- 더 큰 LM은 더 높은 드롭 비율을 견딘다, 모델 크기와 DARE 허용 간의 스케일링 법칙과 유사한 관계를 시사한다.
- DARE는 여러 모델 병합 방법과 결합될 때 성능을 향상시키거나 보존하고, 병합 모델이 많은 경우 개별 구성요소를 능가하도록 한다.
- 주목할 만한 7B 파라미터 병합 모델(supermario 변형)은 retraining 없이도 강력한 능력을 보여주며 Open LLM Leaderboard에서 최고의 순위를 달성했다.
- DARE는 관련 벤치마크에서 디코더- 및 인코더 기반 LM에 대해 효과적이지만 delta 파라미터가 커지면 실패하거나(예: 광범위한 지속적 사전학습 후) 파인튜닝된 파라미터(델타가 아닌)를 제거할 때 실패한다.
- DARE의 재스케일 단계는 필수적이다; 재스케일링 없이(DropOnly) 높은 드롭 비율에서 임베딩 보존이 크게 저하된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.