QUICK REVIEW

[论文解读] A Survey on Model Compression for Large Language Models

Xunyu Zhu, Jian Li|arXiv (Cornell University)|Aug 15, 2023

Topic Modeling被引用 37

一句话总结

关于模型压缩技术在LLMs的全面综述，涵盖剪枝、蒸馏、量化以及低秩分解，包含分类、基准测试和未来方向。

ABSTRACT

Large Language Models (LLMs) have transformed natural language processing tasks successfully. Yet, their large size and high computational needs pose challenges for practical use, especially in resource-limited settings. Model compression has emerged as a key research area to address these challenges. This paper presents a survey of model compression techniques for LLMs. We cover methods like quantization, pruning, and knowledge distillation, highlighting recent advancements. We also discuss benchmarking strategies and evaluation metrics crucial for assessing compressed LLMs. This survey offers valuable insights for researchers and practitioners, aiming to enhance efficiency and real-world applicability of LLMs while laying a foundation for future advancements.

研究动机与目标

对LLMs的模型压缩进行综述并将最近的进展组织成一个结构化的分类体系。
总结关键技术（剪枝、知识蒸馏、量化、低秩分解）及其在LLMs中的权衡。
讨论基准测试策略、评估指标，以及在压缩后LLMs 部署中的环境/伦理考量。
突出挑战和潜在的未来研究方向，以指导研究人员和从业者。

提出的方法

提出适用于LLMs的模型压缩方法分类，包括剪枝（非结构化和结构化）、知识蒸馏（白盒和黑盒）、量化（QAT 和 PTQ）以及低秩分解。
回顾具有代表性的方法及其在LLMs中的适应，如 SparseGPT、LoRAPrune、GUM、LLM-Pruner、MINILLM、GKD、MT-COT、ICL distillation、LLM-QAT、QLORA、GPTQ、AWQ、OWQ、ZeroQuant、SignRound、OmniQuant 和 TensorGPT。
讨论评估与基准方面的视角，包括模型大小、参数数量、压缩比和推理考虑因素。
提供关于环境与无障碍影响的背景，强调压缩在实现可持续与包容性LLM部署方面的动机。

实验结果

研究问题

RQ1在大语言模型中应用的主要模型压缩技术是什么？它们如何被分类？
RQ2剪枝、蒸馏、量化和低秩分解在LLMs中的表现如何、以及它们的取舍是什么？
RQ3用于评估压缩后LLMs 的基准、指标和实际考量有哪些？
RQ4高效、可持续的LLM部署当前面临哪些挑战和未来方向？

主要发现

本综述提出了一个创新的分类法，将剪枝（非结构化和结构化）、知识蒸馏（白盒和黑盒/基于 EA）、量化（QAT 和 PTQ）以及低秩分解整合到对LLMs 的应用中。
它突出显示各类别中的具有代表性的方法，包括 SparseGPT、LoRAPrune、GUM、LLM-Pruner、MINILLM、GKD、MT-COT、ICL distillation、LLM-QAT、QLORA、GPTQ、AWQ、OWQ、ZeroQuant、SignRound、OmniQuant 和 TensorGPT。
论文讨论了用于评估压缩后LLMs 的基准策略和关键评估指标，例如模型大小、参数数量和压缩比。
它强调了压缩在环境与无障碍方面的动机，指出在资源受限环境中潜在的能源使用减少和部署改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。