QUICK REVIEW

[论文解读] A Large-Scale Semi-Supervised Dataset for Offensive Language Identification

Sara Rosenthal, Pepa Atanasova|arXiv (Cornell University)|Apr 29, 2020

Hate Speech and Cyberbullying Detection参考文献 42被引用 75

一句话总结

本文提出了 SOLID，一个包含九百多万条英文推文的大规模半监督数据集，这些推文使用分层的三级分类体系标注了攻击性语言。通过将 SOLID 与现有的 OLID 数据集结合，作者在使用深度学习模型进行攻击性语言识别任务时，展示了显著的性能提升，尤其是在较低层级的分类中。

ABSTRACT

The use of offensive language is a major problem in social media which has led to an abundance of research in detecting content such as hate speech, cyberbulling, and cyber-aggression. There have been several attempts to consolidate and categorize these efforts. Recently, the OLID dataset used at SemEval-2019 proposed a hierarchical three-level annotation taxonomy which addresses different types of offensive language as well as important information such as the target of such content. The categorization provides meaningful and important information for understanding offensive language. However, the OLID dataset is limited in size, especially for some of the low-level categories, which included only a few hundred instances, thus making it challenging to train robust deep learning models. Here, we address this limitation by creating the largest available dataset for this task, SOLID. SOLID contains over nine million English tweets labeled in a semi-supervised manner. We further demonstrate experimentally that using SOLID along with OLID yields improved performance on the OLID test set for two different models, especially for the lower levels of the taxonomy. Finally, we perform analysis of the models' performance on easy and hard examples of offensive language using data annotated in a semi-supervised way.

研究动机与目标

为解决现有攻击性语言数据集规模有限的问题，特别是针对低层级分类类别。
开发一种可扩展的半监督方法，用于标注大规模社交媒体文本。
创建一个大规模、高质量的数据集，以支持深度学习模型在攻击性语言检测任务中的稳健训练。
评估将新数据集与现有基准（如 OLID）结合对模型性能的影响。

提出的方法

利用半监督学习流程，大规模标注了九百多万条英文推文。
采用 SemEval-2019 OLID 数据集中的分层三级标注分类体系，确保标注的一致性。
使用主动学习和模型不确定性估计，优先选择高置信度预测结果进行人工验证。
将模型预测结果与人工验证实例相结合，通过迭代方式持续提升标注质量。
应用数据过滤和一致性检查，确保大规模数据集中标签的可靠性。
在 SOLID 上微调预训练语言模型，并在 OLID 测试集上评估性能。

实验结果

研究问题

RQ1在保持标签质量的前提下，半监督方法能否有效将攻击性语言标注扩展至九百多万条推文？
RQ2在 OLID 基准上，基于 SOLID 训练的模型性能是否得到提升，特别是在低层级分类类别中？
RQ3当在大规模半监督数据上进行训练时，简单样本与困难样本在攻击性语言检测中的相对贡献如何？
RQ4与仅在 OLID 上训练相比，将 SOLID 与 OLID 结合使用在 F1 分数和类别级别性能上的提升程度如何？

主要发现

在 SOLID 上进行训练显著提升了模型在 OLID 测试集上的性能，尤其在以往训练数据有限的低层级分类类别中表现突出。
SOLID 与 OLID 的结合在分类体系的所有层级上均带来了更高的 F1 分数，其中最显著的提升出现在最细粒度的层级。
在 SOLID 上训练的模型在处理困难样本（如语言上微妙或依赖语境的实例）时，泛化能力优于仅在 OLID 上训练的模型。
半监督标注流程成功实现了大规模高质量数据集的构建，为下游模型训练提供了坚实基础。
在检测间接攻击性语言形式（如反语或讽刺）方面的性能提升最为明显，这些形式对标准模型而言具有挑战性。
结果表明，大规模半监督数据能够有效弥补低资源攻击性语言类别中的数据稀缺问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。