[论文解读] Large Language Models: A Survey
对大型语言模型(LLMs)的全面综述,涵盖 GPT、LLaMA、PaLM 家族、训练/数据、评估、增强、数据集、基准测试,以及尚待解决的挑战。
Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.
研究动机与目标
- 总结从统计模型到基于 Transformer 的 LLMs 的演化及其涌现能力。
- 评述三大主流 LLM 家族(GPT、LLaMA、PaLM)及知名的开源/开放获取模型。
- 概述构建、微调和增强 LLMs 的方法学,包括 RLHF 和指令微调。
- 整理用于训练、微调和基准测试 LLMs 的数据集和评估指标。
- 突出 LLM 研发与部署中的挑战及未来研究方向。
提出的方法
- 梳理语言模型的历史阶段(统计、神经、预训练、LLMs)。
- 描述 LLM 的能力特征,如上下文学习、遵循指令和多步推理。
- 比较 GPT、LLaMA、PaLM 家族及其变体与开源工作。
- 描述预训练与微调范式以及增强技术(RLHF、外部工具)。
- 总结用于 LLMs 训练和评估的数据集与基准。

实验结果
研究问题
- RQ1当前 LLM 家族(GPT、LLaMA、PaLM)的关键能力与局限性是什么?
- RQ2训练数据、模型规模和架构如何影响 LLM 在基准测试上的表现?
- RQ3哪些增强与对齐技巧能提升 LLM 的有用性、安全性与可靠性?
- RQ4哪些数据集与指标是评估 LLMs 在各类任务中的标准?
- RQ5LLM 研究的主要开放挑战与未来方向是什么?
主要发现
- LLMs 展示出涌现能力,包括上下文学习、遵循指令和多步推理。
- 三大著名 LLM 家族(GPT、LLaMA、PaLM)在开放性、规模和性能上展示了不同的权衡。
- 指令微调和 RLHF 数据显著影响对齐与任务性能。
- 广泛的数据集与基准测试生态系统支持 LLM 的训练、微调和评估。
- 一系列增强策略(外部工具、检索与持续学习)使基于 LLM 的代理成为可能。
- 该领域在可扩展性、安全性和泛化方面识别了开放挑战与未来研究方向。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。