QUICK REVIEW

[論文レビュー] The Unreasonable Ineffectiveness of the Deeper Layers

Andrey Gromov, Kushal Tirumala|arXiv (Cornell University)|Mar 26, 2024

Advanced Neural Network Applications被引用数 5

ひとこと要約

オープンウェイトLLMは、最も深い層の約半分まで削減してもQA性能の低下が最小限で済むことを示しており、特に少量のPEFT微調整 (QLoRA) の後でそうなる傾向があり、深い層が常に必須とは限らないことを示唆している。

ABSTRACT

How is knowledge stored in an LLM's weights? We study this via layer pruning: if removing a certain layer does not affect model performance in common question-answering benchmarks, then the weights in that layer are not necessary for storing the knowledge needed to answer those questions. To find these unnecessary parameters, we identify the optimal block of layers to prune by considering similarity across layers; then, to "heal" the damage, we perform a small amount of finetuning. Surprisingly, with this method we find minimal degradation of performance until after a large fraction (up to half) of the layers are removed for some common open-weight models. From a scientific perspective, the robustness of these LLMs to the deletion of layers implies either that current pretraining methods are not properly leveraging the parameters in the deeper layers of the network or that the shallow layers play a critical role in storing knowledge. For our study, we use parameter-efficient finetuning (PEFT) methods, specifically quantization and Low Rank Adapters (QLoRA), such that each of our experiments can be performed on a single 40GB A100 GPU.

研究の動機と目的

深いトランスフォーマーブロックの剪定が、オープンウェイトLLMにおけるQAベンチマーク（MMLUとBoolQ）でのパフォーマンスにどのように影響するかを評価する
どの層を剪定するかを特定するための類似度ベースの手法を開発する
パラメータ効率の微調整（QLoRA）を用いた、シンプルでリソース効率の良いヒーリング手順を実証する
量子化とLoRAベースの微調整との組み合わせにおける剪定の相互作用を、複数のモデルファミリーに渡って評価する

提案手法

剪定ブロックで分割された層の入力間の角度距離を最小化することにより、削除すべき最適な層のブロックを選択する、シンプルな剪定アルゴリズムを定義する
同定された層ブロックを削除し、周囲の層を再接続して計算フローを保持する
オプションで、事前学習データセットまたはタスクデータ上で小量の微調整を用いたQLoRAによるヒーリング手順を適用する
パラメータを4ビットに量子化し、QLoRAで微調整して、単一のA100 GPUで実験を可能にする
下流タスクとしてMMLUとBoolQ、事前学習目的としてC4検証損失に対する剪定効果を評価する
類似度情報に基づく剪定戦略と、より単純な最深層剪定戦略を比較する

実験結果

リサーチクエスチョン

RQ1深いトランスフォーマー層は、下流のQA性能が崩壊する前に、どれだけ剪定できるか？
RQ2深い層は隣接層とますます類似して、安全に削除できるようになるか？
RQ3少量のPEFT微調整（QLoRA）は、タスクと指標を横断して剪定による損傷を癒すか？
RQ4剪定は、量子化とLoRAベースの微調整と効果的に組み合わせて、資源使用を抑えつつ性能を維持できるか？

主な発見

モデルは最も深い層の大幅な剪定を、QA性能の最小限の低下しか生じさずに、臨界閾値まで耐性を示す（モデルファミリーにより異なるが、QAタスクでは通常20–55%程度の剪定で閾値が現れる）
QLoRAによるヒーリングは次語予測の喪失を著しく回復し、剪定割合を超えた性能のばらつきを滑らかにし、QAのジャンプと自己回帰損失を切り離す
角度距離分析は、深い層は互いにより類似しており、最終層だけが依然として異なることを示し、剪定すべきブロックを導く
深部層を剪定する簡易ヒューリスティックは、ヒーリング後に類似性情報に基づく方法と類似の振る舞いを示し、剪定の対象は知識獲得ではなくインタフェースの損傷修復であることを強調する
層剪定は、削除した層の数に応じてメモリ使用量と推論時間を線形に削減し、PEFTと量子化と互換性があるため、実用的なオープンウェイトLLMの効率化を実現する

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。