[论文解读] AI Safety in Generative AI Large Language Models: A Survey
一份以计算机科学为重点的综述,使用基于组件的框架对生成式 AI 大语言模型(GAI LLMs)的 AI 安全风险进行分类,并将其与模型训练、提示与对齐方法联系起来。
Large Language Model (LLMs) such as ChatGPT that exhibit generative AI capabilities are facing accelerated adoption and innovation. The increased presence of Generative AI (GAI) inevitably raises concerns about the risks and safety associated with these models. This article provides an up-to-date survey of recent trends in AI safety research of GAI-LLMs from a computer scientist's perspective: specific and technical. In this survey, we explore the background and motivation for the identified harms and risks in the context of LLMs being generative language models; our survey differentiates by emphasising the need for unified theories of the distinct safety challenges in the research development and applications of LLMs. We start our discussion with a concise introduction to the workings of LLMs, supported by relevant literature. Then we discuss earlier research that has pointed out the fundamental constraints of generative models, or lack of understanding thereof (e.g., performance and safety trade-offs as LLMs scale in number of parameters). We provide a sufficient coverage of LLM alignment -- delving into various approaches, contending methods and present challenges associated with aligning LLMs with human preferences. By highlighting the gaps in the literature and possible implementation oversights, our aim is to create a comprehensive analysis that provides insights for addressing AI safety in LLMs and encourages the development of aligned and secure models. We conclude our survey by discussing future directions of LLMs for AI safety, offering insights into ongoing research in this critical area.
研究动机与目标
- 从数据、模型、提示、对齐和扩展角度,提供对 GAI-LLMs 安全危害与风险的结构化概览。
- 开发一个基于组件的分类法,将安全关注点映射到 LLM 架构和工作流程。
- 将已识别的风险与核心 LLM 方法(如上下文学习、提示和带人类反馈的强化学习)相关联。
- 识别评估框架及存在的差距,以指导未来对 GAI-LLMs 的安全开发。
- 讨论在大规模语言模型中 AI 安全研究与实践的未来方向。
提出的方法
- 从计算机科学/自然语言处理(NLP)角度,进行以文献为重点的 GAI-LLMs AI 安全调查。
- 提出五类安全关注点的分类法(数据安全、模型安全、提示安全、对齐、规模下的安全)。
- 将安全风险与 LLM 方法论(上下文学习、提示、带人类反馈的强化学习)相关联。
- 评审并引用用于评估安全性的评估框架和治理资源(如 HELM、BigBench)。
- 将本综述与其他工作进行比较,突出以组件为基础、起源导向的安全问题视角。
实验结果
研究问题
- RQ1与生成式 AI 大型语言模型相关的主要安全风险与危害有哪些?
- RQ2如何在数据、模型、提示、对齐和扩展方面系统地对 LLM 的安全关注点进行分类?
- RQ3已识别的风险如何映射到特定的 LLM 方法,如上下文学习、提示以及带人类反馈的强化学习?
- RQ4存在哪些用于评估 LLM 安全性的评估框架,未来研究的差距在哪里?
- RQ5为改进对齐且安全的 GAI-LLMs,建议哪些未来方向和干预措施?
主要发现
- 提出一个新颖的基于组件的 LLM 安全关注点分类法,涵盖数据安全、模型安全、提示安全、对齐,以及规模下的安全。
- 展示安全风险如何与特定的 LLM 技术相关,尤其是上下文学习、提示和带人类反馈的强化学习,从而实现有针对性的干预。
- 总结评估框架(如 HELM、BigBench)和治理文献在持续安全评估中的范围和相关性。
- 强调需要关于安全挑战的统一理论,并强调文献与现实系统中实际实现之间的差距。
- 提供一个结构化的综合,以引导研究人员和从业者在模型扩展时实现对齐与安全的 LLM 开发。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。