Skip to main content
QUICK REVIEW

[论文解读] Ex Machina: Personal Attacks Seen at Scale

Ellery Wulczyn, Nithum Thain|arXiv (Cornell University)|Oct 27, 2016
Hate Speech and Cyberbullying Detection参考文献 23被引用 203
一句话总结

本文结合众包与机器学习,在英文维基百科上大规模检测个人攻击,并展示一个分类器,其输出与约三名众包工作者的标注相当,同时分析攻击的盛行及模式。

ABSTRACT

The damage personal attacks cause to online discourse motivates many platforms to try to curb the phenomenon. However, understanding the prevalence and impact of personal attacks in online platforms at scale remains surprisingly difficult. The contribution of this paper is to develop and illustrate a method that combines crowdsourcing and machine learning to analyze personal attacks at scale. We show an evaluation method for a classifier in terms of the aggregated number of crowd-workers it can approximate. We apply our methodology to English Wikipedia, generating a corpus of over 100k high quality human-labeled comments and 63M machine-labeled ones from a classifier that is as good as the aggregate of 3 crowd-workers, as measured by the area under the ROC curve and Spearman correlation. Using this corpus of machine-labeled scores, our methodology allows us to explore some of the open questions about the nature of online personal attacks. This reveals that the majority of personal attacks on Wikipedia are not the result of a few malicious users, nor primarily the consequence of allowing anonymous contributions from unregistered users.

研究动机与目标

  • 在大规模上量化维基百科讨论页上的个人攻击的盛行及影响。
  • 开发一种可扩展的方法论,结合众包与机器学习,对大规模语料进行个人攻击的标注。
  • 评估机器标注数据在多大程度上近似众包判断,并校准用于可靠分析的阈值。
  • 实现对跨子群体、贡献者类型和审核行动的攻击的纵向分析。

提出的方法

  • 使用多人标注者对维基百科讨论评论进行众包,以识别个人攻击,对每条评论进行标注。
  • 用词汇或字符n-gram特征训练二元文本分类器(LR 与 MLP)。
  • 尝试两种标注方案:一热OH(OH)多数标签和经验分布(ED)标签,表示预测攻击的标注者比例。
  • 使用AUC和Spearman相关性评估模型,以将预测与众包标注标签进行比较。
  • 开发一个评估框架,将机器学习模型与标注者集成进行基线比较。
  • 将最佳模型应用于标注整个维基百科评论历史,并进行大规模分析。

实验结果

研究问题

  • RQ1维基百科讨论页上个人攻击的盛行程度如何,且在用户匿名性和活跃度上有何差异?
  • RQ2面向可扩展攻击检测,众包标注与机器生成标签相比,哪种更有效?
  • RQ3攻击与审核者行动及讨论中的时序有何关系?

主要发现

Model TypeN-Gram TypeLabel TypeAUCSpearman
LRWordOH94.6253.16
LRWordED95.5565.20
LRCharOH96.1859.20
LRCharED96.2466.68
MLPWordOH95.2556.11
MLPWordED96.1566.33
MLPCharOH95.9058.77
MLPCharED96.5968.17
  • 字符n-gram特征在所有模型中超过词n-gram特征。
  • 在经验分布(ED)标签上训练的模型,在AUC和Spearman相关性方面均优于在一热(OH)标签上训练的模型。
  • 最佳表现配置(字符n-gram与ED标注)在开发数据上的AUC约为96–96.6,Spearman约为66–68。
  • 一个大小为3的标注者集成的性能可与最佳机器模型相当,意味着分类器近似于三名众包工作者。
  • 在随机样本中,约0.8%的评论被标注为攻击,在用于训练的‘blocked’数据集中的普遍性更高(约11.7%)。
  • 匿名编辑者更有可能发表攻击性评论,且匿名账户因数量差异,贡献的攻击总量不到一半。
  • 不到五分之一的攻击会触发审核动作(警告/封禁),并且攻击在时间上的聚类表明早期的审核干预可能更有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。