[论文解读] Tackling Online Abuse: A Survey of Automated Abuse Detection Methods
本论文对NLP中的自动化滥用检测进行了全面综述,涵盖数据集、方法(文本、社交和神经网络方法)、趋势、挑战与伦理指南。
Abuse on the Internet represents an important societal problem of our time. Millions of Internet users face harassment, racism, personal attacks, and other types of abuse on online platforms. The psychological effects of such abuse on individuals can be profound and lasting. Consequently, over the past few years, there has been a substantial research effort towards automated abuse detection in the field of natural language processing (NLP). In this paper, we present a comprehensive survey of the methods that have been proposed to date, thus providing a platform for further development of this area. We describe the existing datasets and review the computational approaches to abuse detection, analyzing their strengths and limitations. We discuss the main trends that emerge, highlight the challenges that remain, outline possible solutions, and propose guidelines for ethics and explainability
研究动机与目标
- 评估跨平台与多语言的常用带注释的滥用检测数据集。
- 总结用于滥用检测的特征工程、神经网络和多模态方法。
- 分析趋势、挑战(隐含/上下文、混淆、跨领域迁移)及潜在解决方案。
- 提出与滥用类型学(显性与隐性)相一致的伦理与可解释性指南。
提出的方法
- 按来源平台与构成对数据集进行编目,以突出滥用类型的覆盖范围。
- 将特征工程方法分为文本方法(规则/词典、BOW/TF-IDF)和社交特征(用户画像)。
- 讨论神经方法:分布式表示、深度文本模型,以及对社会语境的建模。
- 总结多模态与情境感知建模趋势(用户嵌入、基于图的方法、话语分析)。
- 概述隐性滥用、跨领域迁移以及伦理/可解释性方面的挑战与提出的解决方案。
实验结果
研究问题
- RQ1用于带注释的滥用检测的数据集有哪些?它们存在哪些偏见或不足?
- RQ2在滥用检测中已经探索了哪些方法论(文本、社交、神经),它们在不同领域的表现如何?
- RQ3检测滥用面临的主要挑战是什么(如隐性/比喻语言、跨领域泛化),有哪些潜在解决方案?
- RQ4应为滥用检测系统制定哪些伦理与可解释性指南?
主要发现
- 神经和非神经方法均有贡献;子词模型和字符n-gram有助于处理混淆语言。
- 用户画像和基于图的嵌入可以提升滥用检测在文本模型上的表现。
- 包括对话历史在内的情境和话语感知建模可提升对隐性滥用的检测。
- 跨域和跨语言泛化仍是主要挑战,领域自适应和多任务学习有潜在收益。
- BERT-like 上下文模型在近期的德语任务中已变得突出,在共享任务中通常优于CNN/RNN基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。