[论文解读] Small Language Models (SLMs) Can Still Pack a Punch: A survey
一个对约160篇论文的综述,表明在1–8B参数范围内的小语言模型在不同任务上可以与大型模型相匹配甚至超越,涵盖面向任务无关、任务相关和领域特定的设置。
As foundation AI models continue to increase in size, an important question arises - is massive scale the only path forward? This survey of about 160 papers presents a family of Small Language Models (SLMs) in the 1 to 8 billion parameter range that demonstrate smaller models can perform as well, or even outperform large models. We explore task agnostic, general purpose SLMs, task-specific SLMs and techniques to create SLMs that can guide the community to build models while balancing performance, efficiency, scalability and cost. Furthermore we define and characterize SLMs' effective sizes, representing increased capability with respect to LLMs.
研究动机与目标
- 描述小型语言模型(SLMs)的景观及其相对于大型模型的表现。
- 按类型(面向任务无关、任务相关、领域特定)对SLMs进行分类并识别促成技术。
- 总结提升SLM效率与能力的训练方法与架构创新。
- 强调在资源受限环境与成本高效部署中的实际影响。
提出的方法
- 对约160篇文献进行调查,记录SLMs在1–8B参数范围内的表现。
- 将SLMs分类为面向任务无关、任务相关和领域特定群体。
- 分析设计选择、训练技术与架构如何实现竞争性表现。
- 将SLMs与传统LLMs进行比较,并讨论相对于能力的有效规模。
- 讨论与SLMs相关的数据质量、训练信号和评估基准。
实验结果
研究问题
- RQ1现有的Small Language Models (SLMs)的类型与架构是什么,它们与更大LLMs相比如何?
- RQ2哪些训练技术和数据实践使SLMs能够实现竞争性表现?
- RQ3在何种领域中,面向任务无关、任务相关和领域特定的SLMs表现出色或落后于更大模型?
- RQ4研究者应如何定义和衡量SLMs的有效规模与能力?
主要发现
- 1–8B参数范围的SLMs能够在选定任务上达到与更大模型同等或超越的表现。
- 大量SLMs(如Llama 系列、Mistral、Phi、Orca、Gemini Nano、Qwen等)在推理、代码、数学和多模态任务上表现出色。
- 架构与数据质量的选择(如高质量数据集、量化策略与专门的训练信号)对SLM性能至关重要。
- 混合架构与高效训练技术(如GQA、SWA、MoE派生、以及选择性SSMs)在不显著牺牲能力的前提下提供了效率提升。
- 特定任务的SLMs(如代码生成、数学或翻译)在专门基准测试上可能超越更大模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。