[论文解读] Anatomy of an AI-powered malicious social botnet
本研究记录了一种名为 fox8 的 Twitter 机器人网,使用 ChatGPT 生成有害内容,分析其协同行为,并评估检测方法,显示当前的 LLM-内容检测器很难将这些机器人与人类区分开。
Large language models (LLMs) exhibit impressive capabilities in generating realistic text across diverse subjects. Concerns have been raised that they could be utilized to produce fake content with a deceptive intention, although evidence thus far remains anecdotal. This paper presents a case study about a Twitter botnet that appears to employ ChatGPT to generate human-like content. Through heuristics, we identify 1,140 accounts and validate them via manual annotation. These accounts form a dense cluster of fake personas that exhibit similar behaviors, including posting machine-generated content and stolen images, and engage with each other through replies and retweets. ChatGPT-generated content promotes suspicious websites and spreads harmful comments. While the accounts in the AI botnet can be detected through their coordination patterns, current state-of-the-art LLM content classifiers fail to discriminate between them and human accounts in the wild. These findings highlight the threats posed by AI-enabled social bots.
研究动机与目标
- 识别并描述一个在 Twitter 上的真实世界 AI 驱动社交机器人网。
- 了解如何利用大模型(LLMs)创建类人内容和虚假身份。
- 评估现有内容检测器和机器人检测工具对 LLM 驱动机器人可检测性的程度。
- 为研究社区提供数据和见解,推动对 AI 驅动机器人网的进一步研究。
提出的方法
- 通过提及 AI 语言模型的自揭示推文来识别机器人网账户。
- 对一部分账户进行注释,以将其分类为可能的人类与机器人,并构建 fox8-23 基准数据集。
- 描述 fox8 机器人与基线人类在个人资料、社交网络结构和内容模式(原创、回复、转推)上的差异。
- 使用 Botometer、OpenAI AI Text Classifier 和 GPTZero 对机器人与人类内容进行检测方法评估。
- 提出一种账户级检测器,基于合格推文的平均 OpenAI 检测分数对 LLM 驱动机器人进行分类。
实验结果
研究问题
- RQ1现实世界的 Twitter 账户是否使用 LLM 驱动的内容生成来形成协调的恶意机器人网?
- RQ2这样的 AI 驱动机器人在行为和网络模式上与人类有何不同?
- RQ3现有的 LLM 内容检测器和机器人检测器能否在现实环境中可靠地区分这些机器人和人类?
- RQ4能否从 LLM 生成的内容信号构建实用的检测方法来识别 LLM 驱动的机器人?
主要发现
- 一个密集的 fox8 机器人账户簇,数量为 1,140,互相关注并进行互相回复/转发。
- 机器人发布原创推文、回复和转发的混合内容,平均 25.6% 原创、36.1% 回复、38.4% 转发/引用(提供标准差)。
- 三个可疑网站(cryptnomics.org、fox8.news、globaleconomics.news)经常被分享,账户将它们作为机器人网信号的一部分进行链接。
- 自揭示推文表明使用类似 ChatGPT 的提示,其中 81.3% 显示与 OpenAI 指南相关的有害/负面内容指令;其他则显示禁止或超出能力范围的提示。
- 机器人检测工具无法识别 fox8 机器人:Botometer 分布偏左,在阈值 2.5 处召回率接近零。
- 在推文层面,OpenAI 的 AI 文本分类器对该数据集的机器人与人类信号分离效果优于 GPTZero,从而实现账户层检测器,在阈值 52.7 时 F1 值为 0.84;随机账户显示重叠,指示假阳性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。