Skip to main content
QUICK REVIEW

[論文レビュー] ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Xin Men, Mingyu Xu|arXiv (Cornell University)|Mar 6, 2024
Topic Modeling被引用数 15
ひとこと要約

ShortGPTはLLMにおける層レベルの著しい冗長性を示し、低BI層を削除してモデルを剪定し、約25%のパラメータ数と計算量を減らしつつほとんどの性能を維持し、量子化とは直交している。

ABSTRACT

As Large Language Models (LLMs) continue to advance in performance, their size has escalated significantly, with current LLMs containing billions or even trillions of parameters. However, in this study, we discovered that many layers of LLMs exhibit high similarity, and some layers play a negligible role in network functionality. Based on this observation, we define a metric called Block Influence (BI) to gauge the significance of each layer in LLMs. We then propose a straightforward pruning approach: layer removal, in which we directly delete the redundant layers in LLMs based on their BI scores. Experiments demonstrate that our method, which we call ShortGPT, significantly outperforms previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT is orthogonal to quantization-like methods, enabling further reduction in parameters and computation. The ability to achieve better results through simple layer removal, as opposed to more complex pruning techniques, suggests a high degree of redundancy in the model architecture.

研究の動機と目的

  • 大規模言語モデルにはパラメータレベルの冗長性を超える層レベルの冗長性があるかを調査する。
  • LLMにおける各層の重要性を定量化する指標(Block Influence, BI)を開発する。
  • BIに導かれた単純な層削除剪定法を提案・評価する。
  • 層剪定は量子化と直交しており、他の圧縮手法を補完できることを示す。
  • 層剪定の制限と適用範囲をベンチマークとモデルに跨って評価する。

提案手法

  • 推論中に層が隠れ状態をどの程度変換するかを測る指標としてBlock Influence(BI)を定義する。
  • キャリブレーションセットから収集した隠れ状態を用いてBIを較正し、BIで層をランク付けする。
  • BIスコアが最小の層を削除して層を削除する(BIが小さいほど剪定対象)。
  • 標準ベンチマーク(MMLU、CMMLU など)を横断する複数のオープンソースLLMで剪定後のモデルを評価する。
  • BIに基づく剪定と他の最先端剪定法を比較し、深さと幅の冗長性を分析する。
  • 量子化に対する直交性を示すため、剪定を量子化済みのLlama-2-7B-Baseモデルに適用する。

実験結果

リサーチクエスチョン

  • RQ1BI指標を用いてLLMで層レベルの冗長性を信頼性高く測定できるか?
  • RQ2異なるモデルやタスクで低BI層を削除した場合、どれくらいの性能が保持されるか?
  • RQ3現在のLLMアーキテクチャにおいて、層剪定は主に深さベースか幅ベースか?
  • RQ4BIに導かれた層削除は量子化手法を補完してさらなるフットプリント削減に寄与するか?

主な発見

LLMMethodRatioBenchmarksAve.Perl.CMNLIHeSwPIQACHIDWSCCoQABoolQRace-HRace-MXSumC3MMLUCMMLU
Llama2-7BDense0.00%32.9971.2677.9141.6650.0064.6271.6235.7134.1919.4043.5645.3932.9244.52100.00
Llama2-7BLLMPrun.27.0%34.3356.4671.2225.2536.5442.5155.2022.5622.3511.5125.6423.3325.2532.8473.76
Llama2-7BSliceGPT26.4%31.7050.2766.2120.7936.5441.3638.3221.0721.664.8939.7828.9225.3732.8473.76
Llama2-7BLaCo27.1%34.4355.6969.8036.1440.3845.7064.0722.6123.6115.6439.6726.4525.2438.4186.28
Llama2-7BShortGPT27.1%32.9553.0266.4324.6852.4647.9974.7132.2535.170.6739.6243.9632.2542.6095.69
Llama2-13BDense0.00%32.9974.7879.7147.3550.0066.9182.3957.9560.3823.4547.5155.0038.4051.91100.00
Llama2-13BLLMPrun.24.4%33.0367.7676.6635.6440.3850.8656.4222.4722.0819.1732.3325.2124.7138.9775.07
Llama2-13BSliceGPT23.6%29.8255.7169.0419.3136.5447.2637.8623.4124.035.2741.9237.1425.7934.8467.11
Llama2-13BLaCo24.6%32.8664.3974.2740.1052.8852.6663.9854.4956.5514.4544.9345.9332.6248.3093.05
Llama2-13BShortGPT24.6%33.0066.6473.4536.6150.0058.6462.4858.3560.1717.5946.9054.6938.3850.5397.34
Baichuan2-7BDense0.00%33.3767.5676.1785.5650.0063.1474.1026.9624.0920.8264.5553.8756.9553.63100.00
Baichuan2-7BLLMPrun.24.2%32.2853.6671.8269.8053.8547.8361.1921.9622.2815.9841.6424.9325.6941.7677.87
Baichuan2-7BSliceGPT22.2%32.0725.2950.3314.8536.5419.5739.3023.5322.490.0026.5825.1825.2526.2356.38
Baichuan2-7BLaCo24.2%33.0052.2868.5076.2442.3147.2656.1528.9927.7212.0350.8531.5331.2442.9380.05
Baichuan2-7BShortGPT24.2%33.3056.9667.6865.6350.0046.7067.8353.2646.760.0456.3345.7747.8749.0891.52
Baichuan2-13BDense0.00%33.2171.1078.0786.5150.0065.677.8967.2768.9425.0265.6459.5061.3062.31100.00
Baichuan2-13BLLMPrun.24.3%33.8053.5771.8272.7737.5038.8256.5421.1721.6113.6739.8923.1925.1839.2062.91
Baichuan2-13BSliceGPT22.8%32.0725.8551.0310.4036.5418.0237.8321.5621.520.0024.9922.9525.2625.0340.17
Baichuan2-13BLaCo24.7%33.0360.7168.8876.7344.2355.4562.3556.9257.8012.3261.1051.3553.6553.4385.75
Baichuan2-13BShortGPT24.7%32.8160.5571.6080.1747.1354.3062.5455.7756.4115.1460.1652.1158.8654.4387.33
  • LLMsは層レベルの冗長性を大きく示し、特に深い層で顕著である。
  • BI(Block Influence)は層の重要性を効果的に捉え、剪定を導く。
  • ShortGPTは約92%の性能を維持しつつ約25%のパラメータと計算を削減し、従来の剪定法を上回る。
  • 層削除(深さ剪定)は埋め込み次元剪定のような幅削減手法よりも優れる傾向がある。
  • 剪定手法は量子化と直交しており、さらなる圧縮のために量子化と組み合わせることができる。
  • 冗長性はTransformerベースのモデルだけでなくRWKVのような非Transformerアーキテクチャにも観察される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。