[论文解读] Generative AI Misuse: A Taxonomy of Tactics and Insights from Real-World Data
本论文基于对约200个真实世界事件的定性分析(2023年1月–2024年3月),构建了GenAI滥用策略的分类法,聚焦跨模态的能力利用与系统妥协。
Generative, multimodal artificial intelligence (GenAI) offers transformative potential across industries, but its misuse poses significant risks. Prior research has shed light on the potential of advanced AI systems to be exploited for malicious purposes. However, we still lack a concrete understanding of how GenAI models are specifically exploited or abused in practice, including the tactics employed to inflict harm. In this paper, we present a taxonomy of GenAI misuse tactics, informed by existing academic literature and a qualitative analysis of approximately 200 observed incidents of misuse reported between January 2023 and March 2024. Through this analysis, we illuminate key and novel patterns in misuse during this time period, including potential motivations, strategies, and how attackers leverage and abuse system capabilities across modalities (e.g. image, text, audio, video) in the wild.
研究动机与目标
- 在学术文献与现实世界观察的基础上,建立GenAI滥用策略的分类法。
- 将滥用策略区分为对GenAI能力的利用与对GenAI系统的妥协。
- 描述普遍性、动机以及多模态模式,以为安全性和治理提供信息。
- 识别攻击者如何在各模态输出之间进行利用,以实现操纵、欺诈或骚扰等目标。
提出的方法
- 对恶意GenAI使用及灰色文献的文献综述。
- 对Jan 2023至Mar 2024之间发表的约200篇媒体报道的GenAI滥用进行定性分析。
- 对报告进行双人独立编码,以识别相关滥用策略并在分歧处达成共识。
- 将案例映射到行为者目标、策略、工具和对象;并以附录A/B数据进行丰富。
- 两条数据收集渠道:专有社交监听工具与手动检索;去重后为191个案例。
实验结果
研究问题
- RQ1参与者在使用GenAI工具时采取了哪些滥用策略?它们如何被分类?
- RQ2滥用策略在模态(文本、图像、音频、视频)和行为者目标之间的分布如何?
- RQ3有哪些常见策略组合,以实现操纵或货币化等目标?
- RQ4现实世界事件在多大程度上是针对GenAI系统的攻击,还是对能力的利用?
- RQ5这些模式对治理、安全评估和缓解措施有哪些含义?
主要发现
- 约9项中的1项的案例涉及对GenAI能力的利用,而非直接攻击模型。
- 与冒充相关的策略(Impersonation, Sockpuppeting, Appropriated Likeness, NCII)和伪造占主导地位,通常具有政治或金钱动机。
- 大多数滥用依赖于易于获取的GenAI特性,所需技术专长较低,而非针对系统的高水平攻击。
- 新兴的较低级别滥用包括政治动员与倡导,挑战真实性与披露规范。
- 实际系统妥协的案例较少(两起真实世界实例),且往往与研究演示相关,而非部署攻击。
- 获利与诈骗(内容农场、基于冒充的欺诈)和骚扰(NCII)构成主要滥用类别,影响范围与“数字复活”成为新兴模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。