QUICK REVIEW

[论文解读] Detecting Hate Speech in Social Media

Shervin Malmasi, Marcos Zampieri|arXiv (Cornell University)|Dec 18, 2017

Hate Speech and Cyberbullying Detection参考文献 18被引用 33

一句话总结

本文通过在三类Twitter数据集（仇恨言论、冒犯性语言、非冒犯性内容）上应用基于字符n-gram、词n-gram和跳字n-gram的监督分类方法，建立了社交媒体中仇恨言论检测的词汇基线。表现最佳的模型采用字符4-n-gram与线性SVM，准确率达到78%，凸显了在仇恨言论与一般粗俗用语之间进行区分仍是重大挑战，主要源于类别间的严重混淆。

ABSTRACT

In this paper we examine methods to detect hate speech in social media, while distinguishing this from general profanity. We aim to establish lexical baselines for this task by applying supervised classification methods using a recently released dataset annotated for this purpose. As features, our system uses character n-grams, word n-grams and word skip-grams. We obtain results of 78% accuracy in identifying posts across three classes. Results demonstrate that the main challenge lies in discriminating profanity and hate speech from each other. A number of directions for future work are discussed.

研究动机与目标

为社交媒体中的仇恨言论检测建立词汇基线，尤其关注其与一般粗俗用语的区分。
在多类别分类设置下评估不同n-gram和聚类特征的性能。
识别区分仇恨言论与非仇恨但具有冒犯性的内容时的核心挑战。
通过分析仇恨言论检测数据集中特征重要性与误分类模式，为未来研究提供基础。

提出的方法

使用线性支持向量机（SVM）分类器对三类Twitter数据集进行多类别文本分类。
特征包括字符n-gram（最多至4-n-gram）、词n-gram（最多至2-n-gram）、词跳字n-gram（最多至2-n-gram）以及Brown词聚类。
数据集通过转换为小写、去除URL和表情符号进行了预处理。
模型训练与评估采用10折交叉验证，并使用分层采样以应对类别不平衡问题。
绘制学习曲线以评估模型性能随训练数据量的变化。
生成混淆矩阵以分析误分类模式，尤其关注仇恨言论与冒犯性语言类别之间的混淆。

实验结果

研究问题

RQ1仅依靠词汇特征，能否有效区分社交媒体文本中的仇恨言论、冒犯性语言与非冒犯性内容？
RQ2在多类别仇恨言论检测任务中，不同n-gram与聚类特征的性能如何？
RQ3仇恨言论与冒犯性语言之间的混淆在多大程度上由重叠的词汇内容驱动？
RQ4类别不平衡在多大程度上影响模型性能？增加训练数据是否能提升准确率？
RQ5各类别的最具信息量的特征是什么？它们与语义和语体线索有何关联？

主要发现

字符4-n-gram模型取得了最高的78%准确率，优于其他特征类型。
仇恨类别的分类最为困难，与冒犯性类别的混淆率极高。
相当大比例的冒犯性内容被错误分类为非冒犯性，表明对一般冒犯性的检测效果较差。
非冒犯性（Ok）类别分类性能最佳，大多数样本被正确识别。
学习曲线显示，随着训练数据量增加，准确率稳步提升，但在超过15,000个样本后提升速度减缓。
特征分析表明，粗俗词汇在仇恨与冒犯性类别中均具有高度信息量，而语法词在非冒犯性类别中最具信息量的特征中占主导地位。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。