[论文解读] Antisocial Behavior in Online Discussion Communities
本文通过分析CNN、Breitbart和IGN等大型在线讨论社区中最终被封禁的用户,对在线社区中的反社会行为进行了特征刻画。基于用户活动与内容质量的纵向分析,识别出早期行为模式——如可读性低、在少数话题中高度参与、内容质量随时间下降等——这些模式可有效预测未来封禁,跨社区检测的AUC最高达0.84。
User contributions in the form of posts, comments, and votes are essential to the success of online communities. However, allowing user participation also invites undesirable behavior such as trolling. In this paper, we characterize antisocial behavior in three large online discussion communities by analyzing users who were banned from these communities. We find that such users tend to concentrate their efforts in a small number of threads, are more likely to post irrelevantly, and are more successful at garnering responses from other users. Studying the evolution of these users from the moment they join a community up to when they get banned, we find that not only do they write worse than other users over time, but they also become increasingly less tolerated by the community. Further, we discover that antisocial behavior is exacerbated when community feedback is overly harsh. Our analysis also reveals distinct groups of users with different levels of antisocial behavior that can change over time. We use these insights to identify antisocial users early on, a task of high practical importance to community maintainers.
研究动机与目标
- 理解最终被封禁的用户在在线讨论社区中的行为演变过程。
- 探究反社会行为是随时间逐渐显现,还是从一开始就存在。
- 考察社区反馈(如内容删除)如何影响反社会用户的行为轨迹。
- 基于纵向行为信号,开发反社会用户早期检测系统。
- 基于删除率模式与参与风格,提出反社会用户的分类体系。
提出的方法
- 对CNN、Breitbart和IGN在18个月内超过170万名用户的用户活动进行回顾性纵向分析。
- 以封禁作为真实标签,将用户分类为未来被封禁用户(FBUs)与从未被封禁用户(NBUs)。
- 使用可读性指标、语言特征(如粗俗语、情感倾向)以及与他人内容的相似度来衡量内容质量。
- 通过话题集中度与回复率分析参与模式,识别高参与度但低质量的用户。
- 应用分段线性模型追踪内容质量与社区容忍度随时间的变化。
- 基于行为特征(如删除率、语言模式)训练监督分类器以预测未来封禁,并测试其在跨领域场景下的泛化能力。
实验结果
研究问题
- RQ1反社会用户的行为是否随时间逐渐恶化,还是从其社区参与初期就已表现出异常?
- RQ2社区反馈(尤其是内容删除)如何影响反社会行为的演化?
- RQ3能否通过行为与语言信号,在反社会用户社区生涯早期可靠地识别其身份?
- RQ4是否存在具有不同行为模式的反社会用户亚型?它们在参与方式与应对管理措施方面有何差异?
- RQ5在某一社区上训练的模型,其在其他社区中检测反社会用户的能力有多强?
主要发现
- FBUs发布的内容显著可读性更低,使用更多粗俗语,且与他人内容的相似度也低于NBUs。
- FBUs将活动集中于更少的话题中,且收到的回复数高于平均水平,表明尽管内容质量低,仍具有较高参与度。
- FBUs的内容质量随时间持续下降,且社区容忍度逐渐降低——即使控制质量因素,其内容被删除的比例也更高。
- 反社会用户分类体系揭示两类用户:高删除率(Hi-Del)用户在少数话题中高强度发帖,低删除率(Lo-Del)用户则将内容分散至更多讨论中。
- 基于行为与语言特征训练的分类器在跨社区检测中平均AUC达0.74,当针对Lo-Del用户优化时,其召回率达到0.83。
- 跨领域模型泛化能力良好:在Breitbart上训练的分类器在CNN上AUC达0.76,在IGN上达0.74,优于词袋模型(平均AUC 0.58)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。