[论文解读] Still out there: Modeling and Identifying Russian Troll Accounts on Twitter
本文开发了一种基于行为、语言和资料特征的机器学习模型,用于识别推特上的俄罗斯网络水军账号,在交叉验证中达到78.5%的精确率和98.9%的AUC。模型检测到,仍有高达2.6%针对顶尖记者的提及仍被活跃的俄罗斯网络水军占据,表明尽管2016年大选已过,但持续的干预活动依然存在。
There is evidence that Russia's Internet Research Agency attempted to interfere with the 2016 U.S. election by running fake accounts on Twitter - often referred to as "Russian trolls". In this work, we: 1) develop machine learning models that predict whether a Twitter account is a Russian troll within a set of 170K control accounts; and, 2) demonstrate that it is possible to use this model to find active accounts on Twitter still likely acting on behalf of the Russian state. Using both behavioral and linguistic features, we show that it is possible to distinguish between a troll and a non-troll with a precision of 78.5% and an AUC of 98.9%, under cross-validation. Applying the model to out-of-sample accounts still active today, we find that up to 2.6% of top journalists' mentions are occupied by Russian trolls. These findings imply that the Russian trolls are very likely still active today. Additional analysis shows that they are not merely software-controlled bots, and manage their online identities in various complex ways. Finally, we argue that if it is possible to discover these accounts using externally - accessible data, then the platforms - with access to a variety of private internal signals - should succeed at similar or better rates.
研究动机与目标
- 开发一种机器学习模型,能够利用公开数据区分俄罗斯网络水军账号与非水军账号。
- 测试基于2016年网络水军数据训练的模型是否能够检测当前推特上活跃的俄罗斯网络水军账号。
- 通过自动化分类与人工验证,评估该模型在识别网络水军方面的有效性。
- 理解活跃俄罗斯网络水军账号在身份管理与行为策略方面的特征。
- 主张社交媒体平台若能访问内部信号,应能比外部研究人员更有效地检测并停用此类账号。
提出的方法
- 在17万个控制账号和2,200个已知俄罗斯网络水军账号的数据集上训练了逻辑回归模型。
- 提取了包括语言模式(功能词使用、语言分布)、行为指标(发推和转发频率)以及资料元数据(简介、头像、封面图)在内的特征。
- 将训练好的模型应用于样本外数据——具体为2018年底曾提及高调记者的账号。
- 通过三名评估员进行人工评估,以验证模型预测结果,评估内容包括简介与资料的一致性、头像真实性,以及推文内容是否具有攻击性或政治倾向。
- 使用Botometer评估被标记账号是否主要为自动化机器人,将其结果与模型预测进行对比。
- 对被标记账号中观察到的身份欺骗策略进行开放式编码,例如虚假简介、重复使用头像、以及高频率的政治类发推。
实验结果
研究问题
- RQ1能否使用2016年俄罗斯网络水军数据训练的机器学习模型,成功识别当前推特上活跃的俄罗斯网络水军账号?
- RQ2已知网络水军的行为与语言模式在多大程度上能推广到2019年活跃账号的行为特征?
- RQ3模型标记的账号主要是自动化机器人,还是采用了复杂的身份管理策略?
- RQ4在推特上,有多少比例的高曝光记者提及仍被疑似俄罗斯网络水军账号针对?
- RQ5外部研究人员能否仅依靠公开数据检测到活跃的网络水军账号?这对平台级检测能力有何启示?
主要发现
- 逻辑回归模型在交叉验证中达到78.5%的精确率和98.9%的AUC,表现出在区分网络水军与非水军账号方面的强劲性能。
- 当应用于2018年底提及顶尖记者的账号时,模型将3.7%的账号标记为具有统计学意义的俄罗斯网络水军,人工评估员确认其中约70%高度可疑。
- 研究估计,俄罗斯网络水军占据了2.6%针对高调记者的提及,表明其活动仍在持续。
- 模型标记的账号并未被Botometer主要识别为自动化机器人,表明它们并非简单的软件机器人,而是使用了复杂的身份管理策略。
- 许多被标记账号存在简介与推文内容不一致的情况,使用了无关来源的头像(例如冰岛的一家餐厅),并表现出异常高的政治主题转发频率。
- 研究结果表明,社交媒体平台——若能访问私有内部信号——应能以与外部研究人员相当或更高的效率检测并停用此类账号。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。