QUICK REVIEW

[论文解读] STFU NOOB! Predicting Crowdsourced Decisions on Toxic Behavior in Online Games

Jeremy Blackburn, Haewoon Kwak|arXiv (Cornell University)|Apr 23, 2014

Mobile Crowdsensing and Crowdsourcing参考文献 32被引用 51

一句话总结

本文提出了一种监督式机器学习模型，利用来自《英雄联盟》的逾1000万条举报记录，预测在线游戏中的毒性行为群体决策。通过分析游戏内表现、聊天记录和受害者举报，该模型在检测毒性行为方面达到80%的准确率，在预测无辜性的一致共识方面达到88%的准确率，展现出良好的跨区域可迁移性，并具有显著降低人工审核工作量的潜力。

ABSTRACT

One problem facing players of competitive games is negative, or toxic, behavior. League of Legends, the largest eSport game, uses a crowdsourcing platform called the Tribunal to judge whether a reported toxic player should be punished or not. The Tribunal is a two stage system requiring reports from those players that directly observe toxic behavior, and human experts that review aggregated reports. While this system has successfully dealt with the vague nature of toxic behavior by majority rules based on many votes, it naturally requires tremendous cost, time, and human efforts. In this paper, we propose a supervised learning approach for predicting crowdsourced decisions on toxic behavior with large-scale labeled data collections; over 10 million user reports involved in 1.46 million toxic players and corresponding crowdsourced decisions. Our result shows good performance in detecting overwhelmingly majority cases and predicting crowdsourced decisions on them. We demonstrate good portability of our classifier across regions. Finally, we estimate the practical implications of our approach, potential cost savings and victim protection.

研究动机与目标

降低在线游戏中群体审核毒性行为所耗费的人力与时间成本。
利用机器学习建模并预测人工审核的毒性行为决策结果。
理解影响人工审核人员对毒性判断的游戏中行为与语言特征。
评估利用机器学习对毒性行为进行预筛选或辅助审核的可行性。
估算通过自动化预测可实现的成本节约与受害者保护潜力。

提出的方法

在《英雄联盟裁判庭》的146万例毒性玩家案例及逾1000万条用户举报的标注数据上训练监督式分类器。
使用来自游戏内表现（如造成的伤害、获得的金币、死亡次数）、受害者举报以及聊天记录的语言分析特征。
聚焦于高一致度决策（如压倒性有罪或无辜）以提升模型的泛化能力与鲁棒性。
在北美数据上训练模型，并在欧洲数据上评估其性能，以测试跨区域可迁移性。
将模型性能应用于估算潜在的成本节约与每日可保护的玩家数量。
采用50-50混合模型模拟自动化预测与人工审核的协作模式。

实验结果

研究问题

RQ1机器学习模型能否准确预测在线游戏中人类群体对毒性行为的决策？
RQ2哪些游戏内行为与语言特征最能预测人工审核人员的判断？
RQ3在某一地区训练的模型在另一地区的表现如何？
RQ4自动化预测能在多大程度上减轻人工审核人员的负担？
RQ5此类系统在保护无辜玩家免受毒性行为影响方面具有多大潜在影响？

主要发现

该模型在区分毒性行为中“有罪”与“无辜”行为方面达到了80%的准确率。
该模型在预测“无辜”方面的压倒性共识时达到88%的准确率，表明在明确案例中表现优异。
分类器展现出强大的跨区域可迁移性，在仅用北美数据训练的情况下，对欧洲数据也表现出良好性能。
通过早期检测，该模型有望每月减少超过40万名无辜玩家暴露于毒性玩家的风险。
结合自动化预测与人工审核的混合系统，相比仅依靠裁判庭，每天可多保护13,659名玩家。
该方法在保持对关键案例高准确率的同时，展现出显著降低人工审核工作量的实际潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。