Skip to main content
QUICK REVIEW

[论文解读] Russian Troll Account Classification with Twitter and Facebook Data

Dominic Lewinski, Rashidul Hasan|arXiv (Cornell University)|Jan 1, 2019
Spam and Phishing Detection参考文献 1被引用 2
一句话总结

本研究利用推特和脸书的数据,通过自然语言处理(NLP)和主题建模对俄罗斯网络水军账号进行分类,比较不同平台的内容类别。研究发现,推特中的‘左翼水军’和‘右翼水军’类别无法直接对应到脸书广告的主题,表明两个平台的虚假信息策略存在差异,脸书广告主要受时事热点和社交媒体互动驱动。

ABSTRACT

In this analysis, we work with the data set that was compiled by Darren Linvill and Patrick Warren, along with a representative sample of Facebook ads that were released by the House Intelligence Committee Minority. The goal of this analysis is to use the categories defined by Linvill and Warren in the Twitter data and investigate if these categories exist in Facebook ads. This begin to give us insights to the tactics used between the two social media services. Further, we try to replicate Linvill and Warren's original categorization of the Twitter data. Lastly, we investigate what categories may exist in the Facebook data.

研究动机与目标

  • 调查林维尔和沃伦定义的推特账号类别是否存在于脸书广告数据中。
  • 使用自然语言处理和机器学习技术复现林维尔和沃伦对推特账号的分类。
  • 基于内容模式,在脸书广告数据中识别潜在的新类别。
  • 通过内容分析比较推特和脸书的虚假信息策略。

提出的方法

  • 使用自然语言处理技术清洗和预处理推特和脸书的文本数据,去除网址、标点符号和停用词。
  • 应用LDA(潜在狄利克雷分布)主题建模,识别推特和脸书内容中的潜在主题。
  • 为与脸书数据的可用性保持一致,从推特数据中剔除代表性不足的类别(如‘商业’、‘非英文’、‘未知’)。
  • 使用词云和主题可视化技术解释并标注发现的主题。
  • 由于计算资源限制,选择支持向量机(SVM)进行分类,而非随机森林。
  • 通过R语言的‘pdftools’包处理脸书广告,从PDF文件中提取文本,排除被遮盖或完全模糊的内容。

实验结果

研究问题

  • RQ1推特账号类别(如‘左翼水军’、‘右翼水军’、‘新闻动态’)是否存在于脸书广告数据中?
  • RQ2能否通过自然语言处理和主题建模成功复现原始的推特分类?
  • RQ3与推特相比,脸书广告数据中是否涌现出新的或不同的类别?
  • RQ4基于内容和主题结构,推特和脸书的虚假信息策略有何不同?

主要发现

  • 推特类别,尤其是‘左翼水军’和‘右翼水军’,无法直接映射到脸书广告主题,表明各平台采用特定策略。
  • 脸书广告主要受当前事件和热点话题驱动,主题被标记为‘家庭’、‘热点’、‘流行文化’、‘负面新闻’、‘反希拉里’和‘新闻’。
  • LDA在脸书数据中识别出六个独立主题,其中‘热点’和‘流行文化’主题与推特上的‘左翼水军’和‘右翼水军’主题高度相似。
  • 脸书数据中的‘负面新闻’和‘新闻’主题彼此区分明显,表明其策略比推特单一的‘新闻动态’类别更为精细。
  • 脸书数据的最佳主题数为10,但这些主题难以解释,表明其复杂性超出了原始六种类别的推特分类体系。
  • SVM取得了令人满意的分类结果,而随机森林因R语言与openMPI的计算限制被排除。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。