[論文レビュー] What Matters In The Structured Pruning of Generative Language Models?
この論文は、デコーダー専用大規模言語モデル(LLMs)のNLGタスクに対する構造化プルーニングを体系的に評価し、GUM(Globally Unique Movement)と呼ばれる、ニューロンの感度と唯一性のバランスを取るプルーニング手法を提案します。これにより、さまざまな設定下で既存メソッドを上回ります。
Auto-regressive large language models such as GPT-3 require enormous computational resources to use. Traditionally, structured pruning methods are employed to reduce resource usage. However, their application to and efficacy for generative language models is heavily under-explored. In this paper we conduct an comprehensive evaluation of common structured pruning methods, including magnitude, random, and movement pruning on the feed-forward layers in GPT-type models. Unexpectedly, random pruning results in performance that is comparable to the best established methods, across multiple natural language generation tasks. To understand these results, we provide a framework for measuring neuron-level redundancy of models pruned by different methods, and discover that established structured pruning methods do not take into account the distinctiveness of neurons, leaving behind excess redundancies. In view of this, we introduce Globally Unique Movement (GUM) to improve the uniqueness of neurons in pruned models. We then discuss the effects of our techniques on different redundancy metrics to explain the improved performance.
研究の動機と目的
- 従来の構造化プルーニング手法(マグニチュード、ムーヴメント、ランダム)がデコーダー専用生成言語モデルに対してどの程度機能するかを評価する。
- 一部のプルーニング手法がパフォーマンスを下げる理由を理解し、プルーニング品質にとって重要なニューロンの冗長性要因を特定する。
- ニューロンの冗長性を測定する実証的フレームワーク(感度と唯一性)を提案し、それをプルーニングの指針として用いる。
- ニューロンの唯一性を向上させつつ感度を維持することでGUM(Globally Unique Movement)を導入し、NLP生成タスク全般で評価する。
提案手法
- デコーダー専用LLMのMLPブロックに対して、一般的な構造化プルーニング手法(マグニチュード、ランダム、ムーヴメント)をファインチューニング中に評価する。
- Top_vとその派生形を用いたマスクベースプルーニングを適用し、ハード vs ソフトムーヴメントとマグニチュードプルーニングを比較する。
- 蒸留知識を組み込み、プルーニングのギャップへの影響を評価する。
- 感度(ニューロン削除の影響)と唯一性(他のニューロンからの再構成の能力)という冗長性指標を開発する。
- コサイン類似度ベースの唯一性項とムーヴメントベースのプルーニングを組み合わせて、唯一性が高く salient なニューロンを優先するGUMを提案する。
- トレーニング中のニューロン間の類似度を推定するための実行時コサイン類似度更新を提供し、それに基づいてプルーニングを行う。
実験結果
リサーチクエスチョン
- RQ1標準的な構造化プルーニング手法は、素朴なランダムプルーニングと比べてNLGタスクを行うデコーダー専用LLMsに対してどの程度性能を発揮するか。
- RQ2生成モデルにおけるプルーニング性能と最も相関する冗長性特性(感度 vs 唯一性)は何か。
- RQ3ニューロンの唯一性をExplicitに促進するプルーニング戦略(GUM)は、さまざまなデータ/タスクおよびモデルサイズの条件下で既存手法を上回り得るか。
- RQ4知識蒸留は異なるプルーニング手法間の性能差にどのような影響を及ぼすか。
主な発見
- ランダムプルーニングは、多くのNLGタスクで確立された手法と同等か、蒸留を用いるとほぼ同等になることが多い。
- 蒸留はプルーニング手法間のギャップを縮め、より高度なプルーニングの優位性を縮小する傾向がある。
- 感度と唯一性を指標としたフレームワークは手法の性能を説明し、プルーニング結果と相関する。
- GUMは従来手法に比べて高い唯一性を維持しつつ感度を適度に保つことで一般的に優れており、モデルサイズやタスクによってその効果が大きくなる。
- ハードムーブメントは蒸留なしで高い感度と高いパフォーマンスを示すが、GUMは依然として競争力があり蒸留の恩恵を受ける。
- タスクを跨ぐ場合、プルーニングを増やすほど感度は低下し唯一性は高まる傾向があり、両方の指標をバランスさせることから最良の結果が生まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。