QUICK REVIEW

[论文解读] Understanding and Detecting Dangerous Speech in Social Media

Ali Alshehri, El Moatez Billah Nagoudi|arXiv (Cornell University)|May 1, 2020

Hate Speech and Cyberbullying Detection参考文献 20被引用 9

一句话总结

本文引入了一个带标签的数据集，并开发了机器学习模型以检测社交媒体上的危险言论——特别是人身威胁——这是此前研究较少的领域。其最佳模型取得了59.60%的宏平均F1分数，显著优于一个具有竞争力的基线模型。

ABSTRACT

Social media communication has become a significant part of daily activity in modern societies. For this reason, ensuring safety in social media platforms is a necessity. Use of dangerous language such as physical threats in online environments is a somewhat rare, yet remains highly important. Although several works have been performed on the related issue of detecting offensive and hateful language, dangerous speech has not previously been treated in any significant way. Motivated by these observations, we report our efforts to build a labeled dataset for dangerous speech. We also exploit our dataset to develop highly effective models to detect dangerous content. Our best model performs at 59.60% macro F1, significantly outperforming a competitive baseline.

研究动机与目标

为填补社交媒体内容中危险言论（尤其是人身威胁）检测研究的空白。
创建一个高质量、人工标注的危险言论数据集，用于训练和评估检测模型。
开发并评估能够高效识别危险言论的机器学习模型。
建立一个与攻击性或仇恨言论检测不同的危险言论检测基准。

提出的方法

作者收集并整理了一个针对社交媒体帖子的危险言论数据集，重点关注人身威胁。
他们采用人工标注以确保危险言论内容的高质量标注。
利用该数据集对多种机器学习模型（包括深度学习架构）进行微调和评估。
表现最佳的模型在该数据集上实现了最先进性能，结合了上下文嵌入和分类头。
使用宏平均F1分数进行评估，以平衡各类别的性能表现。

实验结果

研究问题

RQ1在社交媒体中，危险言论（尤其是人身威胁）如何定义？它如何与其它形式的有害语言可靠地区分？
RQ2当在新创建的高质量数据集上进行训练时，机器学习模型在检测危险言论方面的有效性如何？
RQ3所提出的模型在检测危险言论方面与现有基线模型相比表现如何？

主要发现

所提出的数据集为检测危险言论提供了可靠且独立的资源，与攻击性或仇恨语言的检测相区分。
表现最佳的模型取得了59.60%的宏平均F1分数，显著优于一个具有竞争力的基线模型。
结果表明，通过适当的训练数据和建模方法，危险言论检测是可行且可量化的。
本研究为未来在线交流中人身威胁检测的研究建立了基准。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。