[論文レビュー] Efficient Large Language Models: A Survey
モデル中心・データ中心・フレームワーク中心のアプローチで整理された、効率的なLLMの体系的調査で、関連研究をまとめたGitHubリソースを維持している。
Large Language Models (LLMs) have demonstrated remarkable capabilities in important tasks such as natural language understanding and language generation, and thus have the potential to make a substantial impact on our society. Such capabilities, however, come with the considerable resources they demand, highlighting the strong need to develop effective techniques for addressing their efficiency challenges. In this survey, we provide a systematic and comprehensive review of efficient LLMs research. We organize the literature in a taxonomy consisting of three main categories, covering distinct yet interconnected efficient LLMs topics from model-centric, data-centric, and framework-centric perspective, respectively. We have also created a GitHub repository where we organize the papers featured in this survey at https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey. We will actively maintain the repository and incorporate new research as it emerges. We hope our survey can serve as a valuable resource to help researchers and practitioners gain a systematic understanding of efficient LLMs research and inspire them to contribute to this important and exciting field.
研究の動機と目的
- モデル中心・データ中心・フレームワーク中心の視点にまたがる、効率的なLLM研究の全体論的分類を提供する。
- LLMのトレーニング・推論・デプロイメントの効率向上に関する主要技術を要約する。
- 効率とスケーラビリティに影響するデータおよびフレームワークの考慮事項を強調する。
- 関連論文の、厳選されコミュニティが運用する参照リポジトリを提供する。
提案手法
- モデル中心・データ中心・フレームワーク中心の効率トピックという三分野の分類を提案する。
- 各カテゴリ内の技術をレビューする(例:圧縮、事前学習、微調整、推論、アーキテクチャ/データ選択/プロンプトエンジニアリング/特化フレームワーク)。
- 知見を構造化された概観に統合し、論文の継続的収集のためのGitHubリソースを提供する。
実験結果
リサーチクエスチョン
- RQ1LLMをより効率的にする主なモデル中心アプローチは何か(圧縮、事前学習、微調整、推論、アーキテクチャ)?
- RQ2データ選択・プロンプティングといったデータ中心戦略はLLMの効率向上にどう寄与するか?
- RQ3効率的なLLM開発とデプロイを特に支援するフレームワークレベルのツールとフレームワークは何か?
- RQ4これらの効率技術の大型モデルに対するトレードオフと実用的影響は何か?
- RQ5効率的なLLMsに関する文献を効果的に探索するにはどうすればよいか(継続的に維持されるリポジトリを通じて)?
主な発見
| Model | Parameter Size | Data Scale | GPUs Cost | Training Time |
|---|---|---|---|---|
| GPT-3 (Brown et al., 2020) | 175B | 300B tokens | - | - |
| GPT-NeoX-20B (Black et al., 2022) | 20B | 825GB corpus | 96 A100-40G | - |
| OPT (Zhang et al., 2022a) | 175B | 180B tokens | 992 A100-80G | - |
| BLOOM (Scao et al., 2022) | 176B | 366B tokens | 384 A100-80G | 105 days |
| GLM (Zeng et al., 2022) | 130B | 400B tokens | 786 A100-40G | 60 days |
| LLaMA (Touvron et al., 2023a) | 65B | 1.4T tokens | 2048 A100-80G | 21 days |
| LLaMA-2 (Touvron et al., 2023b) | 70B | 2T tokens | A100-80G | 71,680 GPU days |
| Gopher (Rae et al., 2021) | 280B | 300B tokens | 1024 A100 | 13.4 days |
| LaMDA (Thoppilan et al., 2022) | 137B | 768B tokens | 1024 TPU-v3 | 57.7 days |
| GLaM (Du et al., 2022) | 1200B | 280B tokens | 1024 TPU-v4 | 574 hours |
| PanGu-alpha (Zeng et al., 2021) | 13B | 1.1TB corpus | 2048 Ascend 910 | - |
| PanGu-sum (Ren et al., 2023b) | 1085B | 329B tokens | 512 Ascend 910 | 100 days |
| PaLM (Chowdhery et al., 2022) | 540B | 780B tokens | 6144 TPU-v4 | - |
| PaLM-2 (Anil et al., 2023) | - | 3.6T tokens | TPUv4 | - |
| WeLM (Su et al., 2022b) | 10B | 300B tokens | 128 A100-40G | 24 days |
| Flan-PaLM (Chung et al., 2022) | 540B | - | 512 TPU-v4 | 37 hours |
| AlexaTM (Soltan et al., 2022) | 20B | 1.3 tokens | 128 A100 | 120 days |
| Codegeex (Zheng et al., 2023) | 13B | 850 tokens | 1536 Ascend 910 | 60 days |
| MPT-7B (Team, 2023) | 7B | 1T tokens | - | - |
- 本レビューは、モデル中心・データ中心・フレームワーク中心の視点から効率的なLLM研究の全体論的分類を提示する。
- 量子化・剪定・低ランク近似・知識蒸留といったモデル圧縮のほか、データ中心の効率のためのデータ選択・プロンプトエンジニアリング、効率的な学習とサービングのための特化フレームワークなど、幅広い技術を強調する。
- 論文は、効率性の研究がアルゴリズムレベル・システムレベル・データの考慮を横断することを強調し、関連文献を整理・維持するためのGitHubリポジトリを提供する。
- より大きなモデルは高い性能をもたらす一方で資源要求も大きくなるという点を強調し、包括的な効率戦略の必要性を動機づける。
- 本研究は、著名なLLMの代表的な事前学習コストとモデル特性を取りまとめ、効率ニーズを文脈づけて提示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。