Skip to main content
QUICK REVIEW

[论文解读] Unique Security and Privacy Threats of Large Language Models: A Comprehensive Survey

Shang Wang, Tianqing Zhu|arXiv (Cornell University)|Jun 12, 2024
Privacy-Preserving Technologies in Data被引用 7
一句话总结

本综述提出一个涵盖预训练、微调、RAG 系统、部署以及基于 LLM 的代理的五场景独特隐私与安全威胁分类法,概述威胁及对策。

ABSTRACT

With the rapid development of artificial intelligence, large language models (LLMs) have made remarkable advancements in natural language processing. These models are trained on vast datasets to exhibit powerful language understanding and generation capabilities across various applications, including chatbots, and agents. However, LLMs have revealed a variety of privacy and security issues throughout their life cycle, drawing significant academic and industrial attention. Moreover, the risks faced by LLMs differ significantly from those encountered by traditional language models. Given that current surveys lack a clear taxonomy of unique threat models across diverse scenarios, we emphasize the unique privacy and security threats associated with four specific scenarios: pre-training, fine-tuning, deployment, and LLM-based agents. Addressing the characteristics of each risk, this survey outlines and analyzes potential countermeasures. Research on attack and defense situations can offer feasible research directions, enabling more areas to benefit from LLMs.

研究动机与目标

  • 鼓励并分析相较于传统模型,LLMs固有的独特隐私与安全风险。
  • 提出与五个生命周期场景相对应的细粒度威胁模型分类法。
  • 识别并讨论特定LLM 的独特风险以及跨语言模型的共同风险。
  • 总结现有对策并提出未来防御研究方向。

提出的方法

  • 将 LLM 生命周期组织为五个威胁场景:预训练、微调、检索增强生成(RAG)、部署,以及基于 LLM 的代理。
  • 提供每个场景内的威胁分类,详细说明攻击目标、能力与方法。
  • 将每种风险映射到相应的对策与防御。
  • 评述隐私与安全风险,并补充三个额外场景:联邦学习、机器可遗忘、以及水印。
  • 对比独特的 LLM 风险与跨语言模型的共同风险,并讨论防御策略。

实验结果

研究问题

  • RQ1在预训练、微调、RAG、部署以及代理部署阶段,LLMs 会产生哪些独特隐私风险?
  • RQ2在每个生命周期阶段有哪些相应的安全威胁及其攻击者模型?
  • RQ3针对这五个场景以及额外的联邦学习、可遗忘与水印,现有或可行的对策有哪些?
  • RQ4这些风险与传统语言模型有何不同,推进稳健防御的研究方向有哪些?

主要发现

  • LLMs 引入独特的隐私风险,如在开放接口暴露时对训练数据的记忆化和白盒数据提取。
  • LLMs 面临独特的安全风险,包括后门、污染和与指令微调及对齐过程相关的越狱攻击。
  • RAG 系统通过被污染的知识库和针对知识拥有者隐私的越狱提示带来风险。
  • 部署 LLM 涉及基于提示的攻击和提示窃取风险,存在独特与通用的模型级漏洞。
  • 基于 LLM 的代理由于相互作用和潜在后门而带来自治风险,需要通过防护边界和安全代理设计来防御。
  • 本综述提出基于分类法的风险与对策映射,强调更安全的 LLM 使用的研究方向。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。