Skip to main content
QUICK REVIEW

[論文レビュー] Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models

Xuan Ding, Pengyu Tong|arXiv (Cornell University)|Feb 8, 2026
Topic Modeling被引用数 0
ひとこと要約

論文はLLM pruningをTransformer層間の協力ゲームとして扱い、層のShapley様似の寄与を推定する軽量の代理モデルを用いて stratified Monte Carlo マスクで推定し、 perplexityとzero-shot accuracy の向上を Baseline より一貫して示しつつ、効率的な剪枝を可能にする。

ABSTRACT

While large language models (LLMs) demonstrate impressive performance across various tasks, their deployment in real-world scenarios is still constrained by high computational demands. Layer-wise pruning, a commonly employed strategy to mitigate inference costs, can partially address this challenge. However, existing approaches generally depend on static heuristic rules and fail to account for the interdependencies among layers, thereby limiting the effectiveness of the pruning process. To this end, this paper proposes a game-theoretic framework that formulates layer pruning as a cooperative game in which each layer acts as a player and model performance serves as the utility. As computing exact Shapley values is computationally infeasible for large language models (LLMs), we propose using a lightweight surrogate network to estimate layer-wise marginal contributions. This network can predict LLM performance for arbitrary layer combinations at a low computational cost. Additionally, we employ stratified Monte Carlo mask sampling to further reduce the cost of Sharpley value estimation. This approach captures inter-layer dependencies and dynamically identifies critical layers for pruning. Extensive experiments demonstrate the consistent superiority of our method in terms of perplexity and zero-shot accuracy, achieving more efficient and effective layer-wise pruning for large language models.

研究の動機と目的

  • inter-layer 依存関係を考慮した大規模言語モデルの剪枝を動機づける。
  • 代理ネットワークを用いた層寄与の推定をスケーラブルな2段階近似として提案する。
  • 層間相互作用を保持して、効率的な剪枝のための重要な層を特定する。
  • 複数のモデルとタスクにわたり言語モデリング性能とzero-shot能力の改善を示す。
  • 量子化との互換性を示し、Transformerアーキテクチャを超えた適用性を示す。

提案手法

  • 各Transformer層をプレイヤーとし、モデルの性能を効用とする協力ゲームとして層剪枝を定式化する。
  • 階層化モンテカルロマスク採取を導入し、ハミング重みを制御した多様な剪枝マスクを生成する。
  • 見 unseen マスクの性能低下を予測する軽量代理ネットワークを訓練し、Shapley値を近似する。
  • 代理と集約されたマスク評価を用いて層の限界寄与を推定し、Shapley値で層をランク付けする。
  • 推定寄与が最も低い層を削除して所定の圧縮比を満たす剪枝を行う。
  • 必要に応じて事後量子化と組み合わせて効率を向上させる。

実験結果

リサーチクエスチョン

  • RQ1層間依存関係を効果的に捉えてLLMの層剪枝を導くことは可能か。
  • RQ2代理モデルは層寄与のShapley値ベースの剪枝を活用するための正確でスケーラブルな推定を提供できるか。
  • RQ3ゲーム理論に基づく文脈認識の剪枝戦略は、静的ヒューリスティックや既存のベースラインを超えるか。

主な発見

  • 提案手法は、深さ方向・幅方向の剪枝ベースラインと比較して、複数のモデルと剪枝レベルで perplexity を低く、zero-shot accuracy を高くする。
  • 特に大規模な Meta-LLaMA-3-8B および LLaMA-2-13B-hf モデルにおいて、 Aggressive剪枝時の生成品質を維持する。
  • 層間依存関係を考慮した剪枝意思決定は、敵対的推論タスク(ANLI)で堅牢性を向上させる。
  • 方法は非Transformerアーキテクチャ(RWKV, Mamba)にも一般化可能で、事後量子化と互換性を維持し、さらなるメモリとスループットの向上を可能にする。
  • 実験は追加のメモリ負荷を伴わず、速度/スループット/遅延のトレードオフを有利にすることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。