[논문 리뷰] When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
논문은 대규모 언어 모델의 미세조정이 모델 크기, 프리트레이닝 데이터 크기, 미세조정 데이터 크기, PET 매개변수 크기에 따라 어떻게 규모화되는지, 전체 모델 튜닝, 프롬프트, LoRA 전체에 걸쳐 다루고, 곱셈적 조합 규모 법칙을 제안하며 모델 크기가 종종 프리트레이닝 데이터보다 더 큰 영향을 미친다는 것과 PET 규모화가 제한적이고 작업 의존적이라는 것을 밝힌다.
While large language models (LLMs) often adopt finetuning to unlock their capabilities for downstream applications, our understanding on the inductive biases (especially the scaling properties) of different finetuning methods is still limited. To fill this gap, we conduct systematic experiments studying whether and how different scaling factors, including LLM model size, pretraining data size, new finetuning parameter size and finetuning data size, affect the finetuning performance. We consider two types of finetuning -- full-model tuning (FMT) and parameter efficient tuning (PET, including prompt tuning and LoRA), and explore their scaling behaviors in the data-limited regime where the LLM model size substantially outweighs the finetuning data size. Based on two sets of pretrained bilingual LLMs from 1B to 16B and experiments on bilingual machine translation and multilingual summarization benchmarks, we find that 1) LLM finetuning follows a powerbased multiplicative joint scaling law between finetuning data size and each other scaling factor; 2) LLM finetuning benefits more from LLM model scaling than pretraining data scaling, and PET parameter scaling is generally ineffective; and 3) the optimal finetuning method is highly task- and finetuning data-dependent. We hope our findings could shed light on understanding, selecting and developing LLM finetuning methods.
연구 동기 및 목표
- 데이터 제한 조건에서 여러 요인(모델 크기, 프리트레이닝 데이터, 미세조정 데이터, PET 매개변수 크기)에 따른 미세조정 성능의 규모화를 조사한다.
- 작업 간의 귀납 바이어스와 규모화 동향을 이해하기 위해 전체 모델 튜닝과 매개변수 효율적 튜닝의 두 가지 미세조정 패러다임을 비교한다.
- PET 방법(Prompt, LoRA)이 효과적으로 규모화되는지와 작업, 데이터, 방법 간의 상호 작용이 성능에 어떻게 영향을 주는지 평가한다.
- LLM 미세조정에 대한 방법 선택 및 제로샷 일반화의 함의에 대한 가이드를 제공한다.
제안 방법
- 두 가지 이중언어 LLM 계열(En-De, En-Zh)을 1B에서 16B까지의 모델 크기로, 상당한 단일언어 데이터로 사전학습된 상태로 연구한다.
- WMT 번역(En-De, En-Zh)과 MLSum 다중언어 요약 작업에서 최대 2000만 개의 미세조정 예제를 사용하여 평가한다.
- 세 가지 미세조정 설정을 테스트한다: 전체 모델 튜닝(FMT), 프롬프트 튜닝(소프트 프롬프트), LoRA(저랭크 적응).
- 미세조정 손실에 대한 곱셈적 공동 규모 법칙 L̂(X,Df)=A/X^α * 1/Df^β + E를 제안하고 맞춘다. 여기서 X는 스케일링 계수이고 Df는 미세조정 데이터 크기이며, 가법 형태와 비교한다.
- Hubber 손실 및 L-BFGS로 피팅하고, 일반화 능력을 평가하기 위해 홀드아웃 데이터를 사용한다.
- 작업 간에 모델 크기, 프리트레이닝 데이터, PET 매개변수의 영향을 비교하기 위해 α와 β의 스케일링 지수를 분석한다.
실험 결과
연구 질문
- RQ1LLM 미세조정 성능이 모델 크기, 프리트레이닝 데이터 크기, 미세조정 데이터 크기, PET 매개변수 크기에 따라 어떻게 규모화되는가?
- RQ2전체 모델 튜닝과 PET 접근 방식은 번역과 요약 작업에서 서로 다른 규모화 경향을 보이는가?
- RQ3곱셈적 공동 규모 법칙이 미세조정 규모화를 설명하는 데 가법 법칙보다 우수한가?
- RQ4미세조정 데이터 및 모델 크기에 따라 어떤 미세조정 방법이 선호되며, 제로샷/일반화는 미세조정 후 어떻게 동작하는가?
- RQ5특정 작업에 대해 LLM을 미세조정할 때 제로샷 일반화의 역할은 무엇인가?
주요 결과
- 미세조정 데이터 크기와其他 스케일링 요소 간에 거듭제곱 기반의 곱셈적 공동 규모 법칙이 작용한다.
- LLM 모델 규모 확장이 일반적으로 프리트레이닝 데이터 규모 확장보다 미세조정 성능 향상에 더 큰 이점을 제공한다.
- PET 매개변수 규모화(Prompt 길이, LoRA 랭크)는 LoRA 및 Prompt에 대해 대체로 비효과적이며, LoRA가 더 안정적이지만 이익은 제한적이다.
- 최적의 미세조정 방법은 작업 및 데이터에 크게 의존하며, PET는 낮은 데이터 구간과 제로샷 설정에서 종종 FMT보다 우수하고, FMT는 큰 미세조정 데이터와 더 큰 모델에서 따라잡을 수 있다.
- 제로샷 일반화는 특정 미세조정 규칙에서 보존되거나 향상될 수 있으며, Prompt와 LoRA는 대형 기본 LLM에서 일반화가 우수하게 나타난다.
- 방법 간 비교를 위한 명확한 임계 미세조정 데이터 포인트가 존재하지만 작업 의존적이며 범용적으로 일반화되지는 못한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.