Skip to main content
QUICK REVIEW

[论文解读] Recognizing Explicit and Implicit Hate Speech Using a Weakly Supervised Two-path Bootstrapping Approach

Lei Gao, Alexis Kuppersmith|arXiv (Cornell University)|Oct 19, 2017
Hate Speech and Cyberbullying Detection参考文献 17被引用 43
一句话总结

本文提出一种弱监督的双路径自举方法,通过联合学习显性辱骂术语与隐性仇恨言论,采用共训练两个模型:辱骂术语学习器与LSTM分类器。该方法通过迭代地利用未标注Twitter流中的自动标注数据来优化两个模型,实现在仇恨言论检测任务上48.9%的F1分数——比监督基线模型高出4.4倍。

ABSTRACT

In the wake of a polarizing election, social media is laden with hateful content. To address various limitations of supervised hate speech classification methods including corpus bias and huge cost of annotation, we propose a weakly supervised two-path bootstrapping approach for an online hate speech detection model leveraging large-scale unlabeled data. This system significantly outperforms hate speech detection systems that are trained in a supervised manner using manually annotated data. Applying this model on a large quantity of tweets collected before, after, and on election day reveals motivations and patterns of inflammatory language.

研究动机与目标

  • 解决监督式仇恨言论检测的局限性,包括标注成本高、语料偏差以及对罕见或演变中的仇恨言论形式泛化能力差的问题。
  • 通过利用大规模未标注数据并辅以最少的人工监督,克服在线仇恨言论的稀疏性与快速演变特性。
  • 捕捉传统方法常遗漏的显性(基于辱骂术语)与隐性(语境性、隐喻性)仇恨言论形式。
  • 通过互补模型的共训练,构建具备抗语义漂移能力的自改进系统。
  • 在选举等高紧张事件期间实现实时仇恨言论检测,通过动态适应新语言触发机制。

提出的方法

  • 以20个种子仇恨辱骂术语为起点,通过精确字符串匹配从6200万条推文语料中自动标注仇恨言论推文。
  • 训练两个并行模型:辱骂术语学习器用于从未标注的仇恨内容中发现新的攻击性词汇;LSTM分类器则利用相同标注数据检测隐性仇恨言论。
  • 在每次迭代中协同使用两个模型:辱骂学习器识别新辱骂术语,LSTM分类器基于语义构成对新内容进行分类。
  • 将两个模型新识别出的仇恨内容扩充至训练数据中,迭代重新训练各组件,以提升覆盖范围与准确性。
  • 应用共训练原则,通过强调词汇特征与上下文特征的互补学习路径,维持学习动力并减少漂移。
  • 利用社交媒体中的时间动态特性,在2016年美国大选等重大事件期间验证模型性能。

实验结果

研究问题

  • RQ1弱监督的自改进系统是否能比监督基线更有效地检测显性和隐性仇恨言论?
  • RQ2共训练两个不同模型——一个聚焦词汇辱骂术语,一个聚焦语义上下文——在多大程度上提升了检测性能与鲁棒性?
  • RQ3从大规模未标注数据中进行自举,能在多大程度上降低对昂贵人工标注的依赖,同时保持高F1分数?
  • RQ4仇恨言论的时间模式与2016年美国大选等重大政治事件之间是否存在相关性?
  • RQ5在极化事件期间,哪些语言与社会因素(如提及、话题标签)最能预测煽动性语言的出现?

主要发现

  • 双路径自举模型实现了48.9%的F1分数,显著优于仅使用辱骂术语学习器(19.7%)或仅使用LSTM分类器(26.1%)的系统。
  • 该系统识别出214,997条仇恨言论推文,是使用人工标注数据训练的监督模型的4.4倍。
  • 从11月7日至12日期间,仇恨推文数量出现显著激增,与2016年美国大选期间及重大新闻事件高度吻合。
  • 仇恨推文中出现频率最高的提及对象包括@realDonaldTrump与@HillaryClinton等政治人物,表明党派极化是主要驱动因素。
  • #Trump、#MAGA与#Election2016等话题标签最为常见,证实新闻触发事件会显著放大仇恨言论。
  • 该模型成功检测到隐性仇恨言论,例如关于“福利军队”或“二流医生”的隐喻,而无需依赖显性辱骂术语。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。