[論文レビュー] Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
この論文は DARE を紹介します。単純な drop-and-rescale 手法で SFT delta パラメータを疎にし、複数の同系 LMs から機能を lossless に吸収し、再訓練や GPU なしで単一モデルへ効果的に統合することを可能にします。
In this paper, we unveil that Language Models (LMs) can acquire new capabilities by assimilating parameters from homologous models without retraining or GPUs. We first introduce DARE to set most delta parameters (i.e., the disparity between fine-tuned and pre-trained parameters) to zeros without affecting the abilities of Supervised Fine-Tuning (SFT) LMs, which randomly Drops delta parameters with a ratio $p$ And REscales the remaining ones by $1 / (1 - p)$ to approximate the original embeddings. Then, we use DARE as a versatile plug-in to sparsify delta parameters of multiple SFT homologous models for mitigating parameter interference and merge them into a single model by parameter fusing. We experiment with encoder- and decoder-based LMs, showing that: (1) SFT delta parameter value ranges are typically small (within 0.002) with extreme redundancy, and DARE can effortlessly eliminate 90% or even 99% of them; (2) DARE can merge multiple task-specific LMs into one LM with diverse capabilities. Notably, this phenomenon is more pronounced in large-scale LMs, where the merged LM reveals the potential to surpass the performance of any source LM, providing a new discovery. We also utilize DARE to create a merged LM that ranks first among models with 7 billion parameters on the Open LLM Leaderboard.
研究の動機と目的
- SFT delta パラメータが非常に冗長であり、性能の大幅な低下を伴わずに劇的に削減可能であることを動機づけ、実証する。
- 推論用の元の埋め込みを保持するよう、delta パラメータをドロップしリスケールする DARE を導入する。
- DARE が、複数の同系 SFT LMs を多様な能力を備えた単一モデルへ有効に統合できることを示す。
- GLUE、GSM8K、MATH、コード生成ベンチマークを通じて、エンコーダ基盤・デコーダ基盤の LM に対する DARE を評価する。
- DARE が機能する条件、制限、および剪定とモデル統合の文献との関係について指針を提供する。
提案手法
- delta パラメータを、SFT パラメータと事前学習パラメータの差として定義する。
- DARE: 率 p で delta パラメータをランダムにドロップし、残りを 1/(1-p) でリスケールする。
- リスケール係数を 1/(1-p) に設定すると期待される埋め込みを保持でき、剪定された集合で推論を可能にする、という推論。
- 既存のモデル統合手法へのプラグインとして DARE を適用する(Average Merging、Task Arithmetic、Fisher Merging、RegMean、TIES-Merging)。
- GLUE、AlpacaEval、GSM8K、MATH、HumanEval、MBPP、Open LLM Leaderboard ベンチマークなどのデータセットを用いて、エンコーダーおよびデコーダー基盤の LM に対する性能保持と統合の効果を評価する。
- delta パラメータのスケール、バックボーンの選択といった DARE の前提条件を調査し、マグニチュードベースの剪定と比較する。
実験結果
リサーチクエスチョン
- RQ1DARE は、LM の能力に実質的な低下を伴わずに SFT delta パラメータを劇的に削減できるか?
- RQ2DARE の適用は、複数のタスク特化で同系の LMs を多様な能力を持つ単一のモデルへ有効に統合するのを促進するか?
- RQ3モデルサイズ、バックボーン、delta パラメータの大きさに関して DARE の実践的限界は何か?
- RQ4能力を保持または強化する点で、伝統的なマグニチュードベース剪定や他の統合戦略と DARE はどう比較されるか?
- RQ5DARE が実現可能となる条件は何か(例:delta パラメータの範囲、事前学習信号)?
主な発見
- SFT delta パラメータは非常に冗長であり、DARE は大規模な LM では性能への影響を最小限に抑えつつ delta パラメータの 90% から 99% を削除できる。
- より大きな LM はより高いドロップ率に耐性がある、モデルサイズと DARE 耐性のスケーリング法則のような関係を示している。
- 複数のモデル統合手法と組み合わせると DARE は性能を向上させるか保持し、結合モデルが多くのケースで個々の部品を上回るようにする。
- 注目すべき 7B パラメータの統合モデル(supermario バリアント)は Open LLM Leaderboard でトップランクを達成し、再訓練なしで構築された強力な能力を示しています。
- DARE は関連ベンチマークでデコーダー基盤およびエンコーダー基盤の LM に有効だが、delta パラメータが大きくなる場合(例:長期的な連続事前学習後)や、ファインチューニング済みの(delta ではない)パラメータをドロップする場合には失敗する。
- DARE のリスケール段階は不可欠です。リスケールなし(DropOnly)の場合、高いドロップ率で埋め込みの保持が著しく劣化します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。