[論文レビュー] When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method
本論文は、ファインチューニングがモデルサイズ、事前学習データサイズ、ファインチューニングデータサイズ、PETパラメータサイズとどのようにスケールするかを、全モデル調整、プロンプト、LoRA の各設定で調べ、乗法的な結合スケーリング則を提案するとともに、モデルサイズが事前学習データよりも影響力が大きいこと、PET のスケーリングが限定的でタスク依存であることを明らかにした。
While large language models (LLMs) often adopt finetuning to unlock their capabilities for downstream applications, our understanding on the inductive biases (especially the scaling properties) of different finetuning methods is still limited. To fill this gap, we conduct systematic experiments studying whether and how different scaling factors, including LLM model size, pretraining data size, new finetuning parameter size and finetuning data size, affect the finetuning performance. We consider two types of finetuning -- full-model tuning (FMT) and parameter efficient tuning (PET, including prompt tuning and LoRA), and explore their scaling behaviors in the data-limited regime where the LLM model size substantially outweighs the finetuning data size. Based on two sets of pretrained bilingual LLMs from 1B to 16B and experiments on bilingual machine translation and multilingual summarization benchmarks, we find that 1) LLM finetuning follows a powerbased multiplicative joint scaling law between finetuning data size and each other scaling factor; 2) LLM finetuning benefits more from LLM model scaling than pretraining data scaling, and PET parameter scaling is generally ineffective; and 3) the optimal finetuning method is highly task- and finetuning data-dependent. We hope our findings could shed light on understanding, selecting and developing LLM finetuning methods.
研究の動機と目的
- データ不足条件下で、複数の要因(モデルサイズ、事前学習データ、ファインチューニングデータ、PETパラメータサイズ)に対してファインチューニングの性能がどのようにスケールするかを調査する。
- タスク全体でのフルモデル調整とパラメータ効率的調整の2つのファインチューニングパラダイムを比較し、帰納バイアスとスケーリング挙動を理解する。
- PET 手法(Prompt、LoRA)が効果的にスケールするか、タスク・データ・手法の相互作用が性能にどう影響するかを評価する。
- LLMファインチューニングにおける手法選択とゼロショット一般化への含意について示唆を提供する。
提案手法
- 大量の単言語データで事前学習された、モデルサイズが1Bから16Bの2つのバイリンガルLLMファミリを研究する。
- WMT翻訳(En-De、En-Zh)およびMLSum多言語要約タスクで評価し、最大20Mのファインチューニング例を使用する。
- 3つのファインチューニング設定をテストする:Full-Model Tuning (FMT)、Prompt tuning (soft-prompt)、LoRA (low-rank adaptation)。
- ファインチューニング損失のための乗法的結合スケーリング則を提案・適合する:L̂(X,Df)=A/X^α * 1/Df^β + E、ここで X はスケーリング係数、Df はファインチューニングデータサイズ;加法形と比較する。
- ヒューバー損失とL-BFGSを用いてフィットを行い、外挿を評価するためにホールドアウトデータを使用する。
- タスク間でスケーリング指数 α および β を分析し、モデルサイズ、事前学習データ、および PET パラメータの影響を比較する。
実験結果
リサーチクエスチョン
- RQ1LLMファインチューニングの性能は、モデルサイズ、事前学習データサイズ、ファインチューニングデータサイズ、そして PET パラメータサイズとともにどのようにスケールするか?
- RQ2翻訳と要約タスクにおいて、フルモデル調整とPETアプローチは異なるスケーリング傾向を示すのか?
- RQ3ファインチューニングのスケーリングを説明するのに、乗法的結合スケーリング則は加法則より良い説明になるのか?
- RQ4異なる量のファインチューニングデータとモデルサイズのもとでどのファインチューニング手法が好まれるか、そしてファインチューニング後のゼロショット/一般化はどう振る舞うか?
- RQ5特定のタスクに対してLLMをファインチューニングした場合のゼロショット一般化の役割は何か?
主な発見
- ファインチューニングは、ファインチューニングデータサイズと他のスケーリング要因との間でべき乗法ベースの乗法的結合スケーリング則に従う。
- LLMモデルサイズのスケーリングは、一般にファインチューニング性能の向上を事前学習データのスケーリングよりも大きくもたらす。
- PETパラメータのスケーリング(Prompt長、LoRAランク)は、LoRAとPromptではほぼ効果がなく、LoRAはより安定性を提供するが得られる利得は限定的。
- 最適なファインチューニング手法はタスクとデータに高度に依存する。PETは低データ領域やゼロショット設定でFMTを上回ることが多い一方、FMTは大規模なファインチューニングデータとより大きなモデルで追いつくことがある。
- ゼロショット一般化は、特定のファインチューニングレジーム下で維持または改善され得る。大規模ベースのLLMではPromptとLoRAが有利な一般化を示す。
- 手法間の比較には明確な臨界的ファインチューニングデータ点が存在するが、それはタスク依存であり普遍的には一般化できない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。