[论文解读] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
本文为在下游NLP任务中使用大型语言模型(LLMs)提供实用指南,比较LLMs与微调模型,并概述数据驱动的考虑因素、特定任务用例以及部署因素。
This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing (NLP) tasks. We provide discussions and insights into the usage of LLMs from the perspectives of models, data, and downstream tasks. Firstly, we offer an introduction and brief summary of current GPT- and BERT-style LLMs. Then, we discuss the influence of pre-training data, training data, and test data. Most importantly, we provide a detailed discussion about the use and non-use cases of large language models for various natural language processing tasks, such as knowledge-intensive tasks, traditional natural language understanding tasks, natural language generation tasks, emergent abilities, and considerations for specific tasks.We present various use cases and non-use cases to illustrate the practical applications and limitations of LLMs in real-world scenarios. We also try to understand the importance of data and the specific challenges associated with each NLP task. Furthermore, we explore the impact of spurious biases on LLMs and delve into other essential considerations, such as efficiency, cost, and latency, to ensure a comprehensive understanding of deploying LLMs in practice. This comprehensive guide aims to provide researchers and practitioners with valuable insights and best practices for working with LLMs, thereby enabling the successful implementation of these models in a wide range of NLP tasks. A curated list of practical guide resources of LLMs, regularly updated, can be found at \url{https://github.com/Mooler0410/LLMsPracticalGuide}.
研究动机与目标
- 促使从业者了解在 NLP 任务中何时使用 LLMs 与微调模型。
- 解释预训练、微调和测试数据如何塑造 LLM 的性能。
- 为 NLU、NLG 和知识密集型任务提供具体任务指导并识别局限性。
- 提供现实场景部署的实用建议和决策流程。
提出的方法
- 将 LLMs 分类为编码器-解码器、仅编码器、以及仅解码器架构,并讨论它们的训练范式(掩码语言模型与自回归)。
- 界定 LLMs 与微调模型之间的实际区别(LLMs 在广泛数据上预训练;微调模型先预训练再进行任务微调),并讨论规模影响(<20B 参数视为微调级别)。
- 分析来自预训练、训练/微调数据和测试数据的数据影响,包括零注释、少量注释和大量注释的情形,并给出何时使用 LLMs 与微调模型的指南。
- 研究 NLP 任务(NLU、NLG、知识密集型任务)及涌现能力,提供用例与非用例的指导并突出局限性。
- 提出一个实用的决策流程(图 3)以在不同任务之间选择 LLMs 与微调模型。
实验结果
研究问题
- RQ1从业者在下游NLP任务中何时应选择 LLMs 而非微调模型?
- RQ2预训练数据、微调数据和测试数据在实践中如何影响 LLM 的性能?
- RQ3在传统的 NLU、生成任务和知识密集型任务中,LLMs 的实际用例与局限性是什么?
- RQ4哪些部署因素(效率、成本、延迟)会影响 LLMs 的实际使用?
主要发现
- 在分布外数据和有限注释数据下,LLMs 的泛化能力通常优于微调模型。
- 在具有丰富注释数据且计算成本较低的传统 NLU 任务中,微调模型往往优于 LLMs。
- LLMs 在生成任务(包括开放式文本和代码综合)方面表现出色,在许多知识密集型任务中也表现良好。
- 检索增强方法可以将闭卷任务转变为开卷任务,从而提高知识密集型任务的性能。
- 规模扩大带来涌现能力和推理的提升,但并不能保证在所有任务上的一致收益。
- RLHF 和指令遵循能力(如 InstructGPT、ChatGPT)提高了泛化性和鲁棒性,包括对多语言指令的遵循。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。