Skip to main content
QUICK REVIEW

[论文解读] Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents

Yuyou Gan, Yong Yang|arXiv (Cornell University)|Nov 14, 2024
Blockchain Technology Applications and Security被引用 6
一句话总结

本综述提出一个基于来源与影响的风险分类法,用于基于 LLM 的代理,分析六个关键代理特征,并给出四个案例研究以指导未来研究。

ABSTRACT

With the continuous development of large language models (LLMs), transformer-based models have made groundbreaking advances in numerous natural language processing (NLP) tasks, leading to the emergence of a series of agents that use LLMs as their control hub. While LLMs have achieved success in various tasks, they face numerous security and privacy threats, which become even more severe in the agent scenarios. To enhance the reliability of LLM-based applications, a range of research has emerged to assess and mitigate these risks from different perspectives. To help researchers gain a comprehensive understanding of various risks, this survey collects and analyzes the different threats faced by these agents. To address the challenges posed by previous taxonomies in handling cross-module and cross-stage threats, we propose a novel taxonomy framework based on the sources and impacts. Additionally, we identify six key features of LLM-based agents, based on which we summarize the current research progress and analyze their limitations. Subsequently, we select four representative agents as case studies to analyze the risks they may face in practical use. Finally, based on the aforementioned analyses, we propose future research directions from the perspectives of data, methodology, and policy, respectively.

研究动机与目标

  • 促使对基于 LLM 的代理中安全、隐私与伦理风险的扎实理解。
  • 提出一种新颖的分类法,通过来源和影响来捕捉跨模块与跨阶段的威胁。
  • 识别六个关键的基于 LLM 的代理特征,并总结当前研究进展与局限。
  • 提供四个代表性代理的案例研究,以说明实际的风险场景。
  • 勾勒在数据、方法学与政策方面的未来研究方向。

提出的方法

  • 提出一个二元来源分类法(输入、模型,或两者)来按来源而非按模块或阶段对威胁进行分类。
  • 将威胁分为安全/安全性、隐私和伦理三大类,以对齐攻击者目标和危害类型。
  • 将威胁映射到六个关键代理特征(LC、MMIO、MSI、MRI、MM、TI)以分析攻击面。
  • 回顾来自顶级会议及 arXiv 的文献,以综合威胁格局并识别跨模态挑战。
  • 选择四个具代表性的代理案例,以说明跨场景的风险表现与防御。
  • 为未来缓解工作提供数据、方法学和政策的方向。

实验结果

研究问题

  • RQ1当威胁跨越多个模块和阶段时,如何准确描述对基于 LLM 的代理的威胁?
  • RQ2在基于 LLM 的代理中,输入、模型或它们的组合会带来哪些威胁?
  • RQ3在多模态、来自多源、以及多回合设置中,六个关键代理特征的具体风险是什么?
  • RQ4从四个案例研究中可以学到哪些内容以指导未来的安全、隐私和伦理防御?
  • RQ5在数据、方法论和政策方面,哪些研究方向最具前景?

主要发现

  • 一种将威胁与其来源(输入、模型,或两者)及影响(安全/安全性、隐私、伦理)关联的新颖分类法,以应对跨领域风险。
  • 识别出六个会产生独特攻击面的一体化代理特征:LC、MMIO、MSI、MRI、MM、TI。
  • 对对抗性输入、目标劫持、越狱、记忆与工具调用漏洞及其相关防御的综合综述。
  • 强调多模态和多轮交互在放大代理风险方面的作用。
  • 四个案例研究,展示在不同代理设计与环境中的实际风险场景。
  • 讨论当前防御的局限性与空白,强调需要联合鲁棒性与更广的模块覆盖。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。