Skip to main content
QUICK REVIEW

[论文解读] Automatic Detection of Online Jihadist Hate Speech

Tom De Smedt, Guy De Pauw|arXiv (Cornell University)|Mar 13, 2018
Hate Speech and Cyberbullying Detection参考文献 13被引用 33
一句话总结

本文提出了一种机器学习系统,通过在2014年10月至2016年12月期间收集的45,000条Twitter消息数据集上应用自然语言处理(NLP)和监督学习,以超过80%的准确率检测在线圣战主义仇恨言论。该系统利用语言分析和网络结构识别极端主义修辞,为监控激进内容提供了一种可扩展的工具。

ABSTRACT

We have developed a system that automatically detects online jihadist hate speech with over 80% accuracy, by using techniques from Natural Language Processing and Machine Learning. The system is trained on a corpus of 45,000 subversive Twitter messages collected from October 2014 to December 2016. We present a qualitative and quantitative analysis of the jihadist rhetoric in the corpus, examine the network of Twitter users, outline the technical procedure used to train the system, and discuss examples of use.

研究动机与目标

  • 开发一种自动化系统,以识别社交媒体内容中的在线圣战主义仇恨言论。
  • 分析极端主义Twitter言论中存在的话语和修辞模式。
  • 创建一个包含45,000条颠覆性Twitter消息的标注数据集,用于训练和评估。
  • 研究传播圣战主义内容的用户网络结构,以理解传播模式。
  • 为在线平台中的仇恨言论实时检测提供技术框架。

提出的方法

  • 该系统在2014年10月至2016年12月期间手动标注的45,000条Twitter消息语料库上应用监督学习。
  • 使用自然语言处理技术提取文本特征,包括n-gram、词性标注和命名实体识别。
  • 应用传统机器学习分类器(如SVM、随机森林)的组合,基于语言模式检测仇恨言论。
  • 使用标准指标(如精确率、召回率和F1分数)对模型进行训练和评估。
  • 对Twitter用户图进行网络分析,以识别传播极端主义内容的用户群组和关键账户。
  • 系统结合语言特征和社会网络特征,以提升检测性能。

实验结果

研究问题

  • RQ1在线圣战主义仇恨言论在Twitter上的语言和修辞特征是什么?
  • RQ2机器学习在区分圣战主义仇恨言论与一般极端主义或煽动性内容方面的有效性如何?
  • RQ3传播圣战主义内容的用户社交网络中存在何种结构性模式?
  • RQ4结合文本特征与基于网络的特征是否能显著提升检测准确率,超越仅依赖文本的模型?
  • RQ5在短文本社交媒体消息中,哪些是激进化或煽动性行为的关键指标?

主要发现

  • 该系统在检测在线圣战主义仇恨言论方面实现了超过80%的整体准确率。
  • 与仅依赖文本的模型相比,同时使用文本特征和基于网络的特征显著提升了检测性能。
  • 仇恨言论消息中一致存在特定的语言模式,如宗教引用、暴力呼吁和隐晦语言。
  • 网络分析揭示了传播相似极端主义叙事的紧密连接用户群组。
  • 45,000条消息的数据集为未来极端内容检测研究提供了宝贵的基准。
  • 本研究证明了在社交媒体平台上对圣战主义言论进行自动化、大规模监控的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。