[論文レビュー] Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes
Bonsaiは勾配フリー、フォワードパスのみの構造化プルーニング手法で、LLMsのメモリ制約下のプルーニングを可能にし、競争力のある精度と勾配ベースおよび半構造化プルーニングと比較してのスピードアップを提供する高速・コンパクトなモデルを実現します。
Structured pruning is a promising approach to create smaller, faster large language models. However, existing methods typically rely on computing the gradient via backward passes, which can inflate memory requirements and compute costs. In this work we introduce Bonsai, a gradient-free structured pruning method that eliminates the need for backpropagation, significantly reducing memory requirements and compute costs while achieving state-of-the-art pruning performance. Bonsai uses forward-pass-only perturbative pruning to enable efficient compression of large models on a broader range of hardware configurations. Unlike existing structured pruning approaches, Bonsai not only achieves better compression with fewer resources but also produces models that are twice as fast as those generated by semi-structured pruning. As a concrete demonstration, we use Bonsai to prune 7B and 8B models to 50% sparsity on a single A6000 GPU -- a task challenging for backprop-based methods in memory-constrained settings, as they require 2-3x the memory. Our results show that removing backprop as a requirement not only enables pruning larger models on constrained hardware but can also lead to state-of-the-art efficiency and performance.
研究の動機と目的
- 一般的な家庭用ハードウェアのメモリ制限の下でフォワードパスのみでプルーニングを可能にすることで、大規模言語モデルへのアクセスを民主化する。
- バックプロップおよびトレーニング時の勾配要件を回避した、メモリに優しい構造化プルーニング手法を開発する。
- サブモデル評価を介して摂動的にモジュール重要度を推定し、層全体でグローバルにプルーニング機会を選択する。
- 制約されたリソース下でフォワードパスプルーニングが、勾配ベースおよび半構造化プルーニングを上回ることを示す。
提案手法
- 構造化プルーニングを、メモリ制約の下で互いに重ならないモジュールの部分集合を選択することとして定式化する。
- 小さな数のサブモデルを生成・評価し、モジュールの重要度を回帰で回収することで、モジュール関連度を推定する。
- 非構造化プルーニング指標から得られる情報的事前分布を用いて、サブモデルのサンプリングにバイアスをかける。
- 局所解を避けるために、層ローカルではなくグローバルな視点でモジュール関連度を計算する。
- 逐次的に小さなステップ(p_iter)でプルーニングを行い、各ステップで事前分布を再推定する。
- 任意で蒸留とLoRAファインチューニングによるポストプルーニング適応を適用して性能を回復する。
実験結果
リサーチクエスチョン
- RQ1LLMsの構造化プルーニングは、現実的なメモリ予算の範囲でフォワードパスのみで達成可能か。
- RQ2勾配ベースの最適化が不可能な場合、プルーニングのモジュール重要度を効率的に推定するにはどうすればよいか。
- RQ3グローバル(層ごとではなく)プルーニング判断は、メモリ制約下でより良い精度と速度のトレードオフを生むか。
- RQ4標準ベンチマークで大規模アーキテクチャから作成したサブ-2Bモデルで競争力のある性能を得られるか。
主な発見
- Bonsaiはフォワードパスプルーニングの下で、親モデルに対して競争力のある困惑度とエンドツーエンドのスピードアップを最大で1.58x達成。
- Bonsaiは4つの評価設定のうち6つの評価設定のうち4つで、最先端の勾配ベース構造化プルーニング手法(LLM-Pruner, LoRAPrune)を上回る。
- 約3B Phi-2モデルをBonsaiで約1.8Bにプルーニングすると、提出時点のHuggingface Open LLMリーダーボードの4つのタスクでリーディング性能を達成。
- LoRAと蒸留を用いたポストプルーニング適応は、いくつかのベースライン性能を回復・上回ることができ、Bonsaiプルーニング済みモデルは複数のタスクで強力なゼロショット能力を発揮。
- フォワードパスプルーニングを用いると、ターゲットサイズと同等の精度を達成しつつ顕著なスピードアップを実現でき、メモリ制約下の実務家に実用的な道を提供。
- アブレーション研究は、摂動評価と回帰ベースの重要度推定の両方がBonsaiの有効性に不可欠であることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。