QUICK REVIEW

[論文レビュー] Efficient Large Language Models: A Survey

Zhongwei Wan, Xin Wang|arXiv (Cornell University)|Dec 6, 2023

Topic Modeling被引用数 23

ひとこと要約

モデル中心・データ中心・フレームワーク中心のアプローチで整理された、効率的なLLMの体系的調査で、関連研究をまとめたGitHubリソースを維持している。

ABSTRACT

Large Language Models (LLMs) have demonstrated remarkable capabilities in important tasks such as natural language understanding and language generation, and thus have the potential to make a substantial impact on our society. Such capabilities, however, come with the considerable resources they demand, highlighting the strong need to develop effective techniques for addressing their efficiency challenges. In this survey, we provide a systematic and comprehensive review of efficient LLMs research. We organize the literature in a taxonomy consisting of three main categories, covering distinct yet interconnected efficient LLMs topics from model-centric, data-centric, and framework-centric perspective, respectively. We have also created a GitHub repository where we organize the papers featured in this survey at https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey. We will actively maintain the repository and incorporate new research as it emerges. We hope our survey can serve as a valuable resource to help researchers and practitioners gain a systematic understanding of efficient LLMs research and inspire them to contribute to this important and exciting field.

研究の動機と目的

モデル中心・データ中心・フレームワーク中心の視点にまたがる、効率的なLLM研究の全体論的分類を提供する。
LLMのトレーニング・推論・デプロイメントの効率向上に関する主要技術を要約する。
効率とスケーラビリティに影響するデータおよびフレームワークの考慮事項を強調する。
関連論文の、厳選されコミュニティが運用する参照リポジトリを提供する。

提案手法

モデル中心・データ中心・フレームワーク中心の効率トピックという三分野の分類を提案する。
各カテゴリ内の技術をレビューする（例：圧縮、事前学習、微調整、推論、アーキテクチャ／データ選択／プロンプトエンジニアリング／特化フレームワーク）。
知見を構造化された概観に統合し、論文の継続的収集のためのGitHubリソースを提供する。

実験結果

リサーチクエスチョン

RQ1LLMをより効率的にする主なモデル中心アプローチは何か（圧縮、事前学習、微調整、推論、アーキテクチャ）？
RQ2データ選択・プロンプティングといったデータ中心戦略はLLMの効率向上にどう寄与するか？
RQ3効率的なLLM開発とデプロイを特に支援するフレームワークレベルのツールとフレームワークは何か？
RQ4これらの効率技術の大型モデルに対するトレードオフと実用的影響は何か？
RQ5効率的なLLMsに関する文献を効果的に探索するにはどうすればよいか（継続的に維持されるリポジトリを通じて）？

主な発見

Model	Parameter Size	Data Scale	GPUs Cost	Training Time
GPT-3 (Brown et al., 2020)	175B	300B tokens	-	-
GPT-NeoX-20B (Black et al., 2022)	20B	825GB corpus	96 A100-40G	-
OPT (Zhang et al., 2022a)	175B	180B tokens	992 A100-80G	-
BLOOM (Scao et al., 2022)	176B	366B tokens	384 A100-80G	105 days
GLM (Zeng et al., 2022)	130B	400B tokens	786 A100-40G	60 days
LLaMA (Touvron et al., 2023a)	65B	1.4T tokens	2048 A100-80G	21 days
LLaMA-2 (Touvron et al., 2023b)	70B	2T tokens	A100-80G	71,680 GPU days
Gopher (Rae et al., 2021)	280B	300B tokens	1024 A100	13.4 days
LaMDA (Thoppilan et al., 2022)	137B	768B tokens	1024 TPU-v3	57.7 days
GLaM (Du et al., 2022)	1200B	280B tokens	1024 TPU-v4	574 hours
PanGu-alpha (Zeng et al., 2021)	13B	1.1TB corpus	2048 Ascend 910	-
PanGu-sum (Ren et al., 2023b)	1085B	329B tokens	512 Ascend 910	100 days
PaLM (Chowdhery et al., 2022)	540B	780B tokens	6144 TPU-v4	-
PaLM-2 (Anil et al., 2023)	-	3.6T tokens	TPUv4	-
WeLM (Su et al., 2022b)	10B	300B tokens	128 A100-40G	24 days
Flan-PaLM (Chung et al., 2022)	540B	-	512 TPU-v4	37 hours
AlexaTM (Soltan et al., 2022)	20B	1.3 tokens	128 A100	120 days
Codegeex (Zheng et al., 2023)	13B	850 tokens	1536 Ascend 910	60 days
MPT-7B (Team, 2023)	7B	1T tokens	-	-

本レビューは、モデル中心・データ中心・フレームワーク中心の視点から効率的なLLM研究の全体論的分類を提示する。
量子化・剪定・低ランク近似・知識蒸留といったモデル圧縮のほか、データ中心の効率のためのデータ選択・プロンプトエンジニアリング、効率的な学習とサービングのための特化フレームワークなど、幅広い技術を強調する。
論文は、効率性の研究がアルゴリズムレベル・システムレベル・データの考慮を横断することを強調し、関連文献を整理・維持するためのGitHubリポジトリを提供する。
より大きなモデルは高い性能をもたらす一方で資源要求も大きくなるという点を強調し、包括的な効率戦略の必要性を動機づける。
本研究は、著名なLLMの代表的な事前学習コストとモデル特性を取りまとめ、効率ニーズを文脈づけて提示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。