[论文解读] Cyberbullying Identification Using Participant-Vocabulary Consistency
本文提出了一种弱监督关系模型——参与者-词汇一致性(Participant-Vocabulary Consistency, PVC),通过优化用户行为与语言指标之间的一致性,联合检测网络欺凌的受害者、施暴者以及新兴的侮辱性用语。该方法在平衡精确率与召回率方面优于共现和动态查询扩展方法,在Twitter和Ask.fm数据上以高精度检测出新型网络欺凌用语。
With the rise of social media, people can now form relationships and communities easily regardless of location, race, ethnicity, or gender. However, the power of social media simultaneously enables harmful online behavior such as harassment and bullying. Cyberbullying is a serious social problem, making it an important topic in social network analysis. Machine learning methods can potentially help provide better understanding of this phenomenon, but they must address several key challenges: the rapidly changing vocabulary involved in cyber- bullying, the role of social network structure, and the scale of the data. In this study, we propose a model that simultaneously discovers instigators and victims of bullying as well as new bullying vocabulary by starting with a corpus of social interactions and a seed dictionary of bullying indicators. We formulate an objective function based on participant-vocabulary consistency. We evaluate this approach on Twitter and Ask.fm data sets and show that the proposed method can detect new bullying vocabulary as well as victims and bullies.
研究动机与目标
- 为解决监督式网络欺凌检测的局限性,包括标注成本高、标签不一致以及俚语快速演变的问题。
- 仅使用少量高精度的欺凌短语种子集,以弱监督方式联合识别施暴者、受害者及新兴的欺凌用语。
- 通过学习用户与语言表达之间的一致性模式,建模网络欺凌语言的动态特性。
- 在Twitter和Ask.fm的真实社交媒体数据上评估该方法,重点关注未见欺凌术语的恢复能力与用户角色识别性能。
提出的方法
- PVC模型构建一个目标函数,强制在互动中保持用户得分(欺凌或受害倾向)与词汇得分(作为欺凌指标的倾向)之间的一致性。
- 利用少量高度指示性的欺凌短语种子词典初始化学习过程,随后通过优化推断所有用户和词汇的得分。
- 通过最小化与种子数据的不一致来优化参数,学习用户与语言表达之间的关系模式。
- 为词汇和用户计算实数值得分,实现精确率与召回率之间的权衡,区别于二值共现基线方法。
- 通过将互动建模为关系三元组(用户1 → 消息 → 用户2)来利用社交网络结构,其中消息内容同时影响用户和词汇得分。
- 评估采用完整粗俗词典中预留的欺凌术语,通过ROC曲线和相对于基线词汇得分的提升程度来衡量性能。
实验结果
研究问题
- RQ1仅使用少量欺凌短语种子集,弱监督模型能否联合检测新兴的网络欺凌用语、施暴者与受害者?
- RQ2与共现和动态查询扩展等基线方法相比,PVC模型在恢复种子集外已知欺凌术语方面表现如何?
- RQ3PVC模型在检测新型欺凌用语时,能否在精确率与召回率之间实现良好平衡?
- RQ4所学习的用户得分是否与实际欺凌行为相关,能否通过资料分析和对话模式得到验证?
- RQ5该模型能否在真实社交媒体互动中检测出攻击性语言,包括种族主义、性别歧视及反LGBT用语?
主要发现
- 在Twitter上,PVC模型对目标欺凌词汇的平均得分相比整体词汇平均值提升了1.5个标准差,显著优于DQE(0.242提升)和共现方法(无提升)。
- 在Ask.fm上,PVC模型对目标词汇的提升达0.825个标准差,而DQE仅为0.0099,表明其在目标词与非目标词之间具有强大的区分能力。
- PVC模型在保持更高精确率的同时,恢复了比DQE更多的预留欺凌术语,证明其在召回率与精确率之间实现了更优平衡。
- 对得分最高的1,000个词汇进行人工检查,发现其中包含有效的欺凌用语,包括种族主义、性别歧视及反LGBT用语,证实了模型检测新兴攻击性语言的能力。
- 在Twitter和Ask.fm数据集中,高分用户表现出与欺凌行为一致的行为特征,如频繁使用攻击性语言,验证了模型对用户角色预测的可靠性。
- 该模型成功检测到Ask.fm上的煽动性对话,包括反复使用侮辱性用语和敌对交流,支持其在现实场景中的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。