[论文解读] Forecasting the presence and intensity of hostility on Instagram using linguistic and social features
本文提出了一种预测模型,利用早期评论中的语言和社交特征,预测Instagram评论中敌意的存在及其强度。该模型在预测未来敌意存在方面的AUC为0.82,在区分高 vs. 低敌意强度方面的AUC为0.91,从而可在敌意互动升级前实现主动监管。
Online antisocial behavior, such as cyberbullying, harassment, and trolling, is a widespread problem that threatens free discussion and has negative physical and mental health consequences for victims and communities. While prior work has proposed automated methods to identify hostile comments in online discussions, these methods work retrospectively on comments that have already been posted, making it difficult to intervene before an interaction escalates. In this paper we instead consider the problem of forecasting future hostilities in online discussions, which we decompose into two tasks: (1) given an initial sequence of non-hostile comments in a discussion, predict whether some future comment will contain hostility; and (2) given the first hostile comment in a discussion, predict whether this will lead to an escalation of hostility in subsequent comments. Thus, we aim to forecast both the presence and intensity of hostile comments based on linguistic and social features from earlier comments. To evaluate our approach, we introduce a corpus of over 30K annotated Instagram comments from over 1,100 posts. Our approach is able to predict the appearance of a hostile comment on an Instagram post ten or more hours in the future with an AUC of .82 (task 1), and can furthermore distinguish between high and low levels of future hostility with an AUC of .91 (task 2).
研究动机与目标
- 基于早期非敌意评论,预测Instagram讨论中未来评论是否具有敌意。
- 预测在首个敌意评论出现后,帖子是否会升级为高水平的敌意。
- 识别可预示未来敌意的语言和社交特征,以支持早期干预。
- 构建一个包含30,000条标注的Instagram评论数据集,用于评估预测模型。
- 为平台级工具提供支持,以优先处理监管任务并改进评论控制功能。
提出的方法
- 该模型使用来自早期评论的语言特征,如针对用户的粗俗用语、情感倾向和词汇多样性。
- 结合社交特征,包括参与的独立用户数量以及帖子作者过往收到敌意评论的历史。
- 采用序列建模方法,处理随时间演变的对话动态,以检测早期升级模式。
- 模型在经过筛选的1,100个Instagram帖子数据集上进行训练,包含三万多个标注评论。
- 建模两个独立任务:(1) 未来敌意存在的预测,(2) 后续敌意水平强度的预测。
- 利用先前对话的特征以提高预测准确性,尤其在具有敌意历史的帖子中效果更显著。
实验结果
研究问题
- RQ1评论线中早期的语言和社交特征能否预测未来评论是否具有敌意?
- RQ2该模型能否区分那些将升级为高水平敌意的讨论与仅保持低水平敌意的讨论?
- RQ3哪些具体语言和社交特征对在线讨论中未来敌意最具预测性?
- RQ4该模型在提前超过十小时预测敌意方面的有效性如何?
- RQ5先前的敌意行为和用户参与模式在多大程度上预示未来冲突的升级?
主要发现
- 该模型在预测未来十小时或更长时间内出现敌意评论时,AUC达到0.82。
- 该模型在区分未来敌意强度的高低水平时,AUC达到0.91。
- 参与对话的独立用户数量是未来敌意升级的强有力预测指标。
- 针对帖子作者的先前敌意行为显著提高了未来敌意评论的可能性。
- 早期评论中针对用户的粗俗用语是未来敌意的强烈指标。
- 数据集中超过85%的敌意评论未被初始关键词搜索捕获,凸显了上下文信息超越简单词典的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。