Skip to main content
QUICK REVIEW

[論文レビュー] STFU NOOB! Predicting Crowdsourced Decisions on Toxic Behavior in Online Games

Jeremy Blackburn, Haewoon Kwak|arXiv (Cornell University)|Apr 23, 2014
Mobile Crowdsensing and Crowdsourcing参考文献 32被引用数 51
ひとこと要約

この論文では、リーグ・オブ・レジェンダーズの1000万件を超えるレポートを用いて、オンラインゲームにおける毒物行動に関するクラウドソーシング意思決定を予測する教師あり機械学習モデルを提案する。対戦成績、チャットログ、被害者レポートを分析することで、毒物行動の検出において80%の正確性、無罪の圧倒的合意の予測において88%の正確性を達成し、顕著な国境間適合性と人為的レビュー作業の軽減可能性を示した。

ABSTRACT

One problem facing players of competitive games is negative, or toxic, behavior. League of Legends, the largest eSport game, uses a crowdsourcing platform called the Tribunal to judge whether a reported toxic player should be punished or not. The Tribunal is a two stage system requiring reports from those players that directly observe toxic behavior, and human experts that review aggregated reports. While this system has successfully dealt with the vague nature of toxic behavior by majority rules based on many votes, it naturally requires tremendous cost, time, and human efforts. In this paper, we propose a supervised learning approach for predicting crowdsourced decisions on toxic behavior with large-scale labeled data collections; over 10 million user reports involved in 1.46 million toxic players and corresponding crowdsourced decisions. Our result shows good performance in detecting overwhelmingly majority cases and predicting crowdsourced decisions on them. We demonstrate good portability of our classifier across regions. Finally, we estimate the practical implications of our approach, potential cost savings and victim protection.

研究の動機と目的

  • オンラインゲームにおけるクラウドソーシングによる毒物行動モデレーションにおける人的・時間的コストの削減を目的とする。
  • 機械学習を用いて人為的レビューによる毒物行動意思決定の結果をモデル化・予測することを目的とする。
  • 毒物行動に関する人為的レビューの判断に影響を与えるゲーム内要因および言語的特徴を理解することを目的とする。
  • 機械学習を用いた事前スクリーニングまたは支援によるモデレーションの実現可能性を評価することを目的とする。
  • 自動予測によるコスト削減および被害者保護の可能性を推定することを目的とする。

提案手法

  • リーグ・オブ・レジェンダーズ・トライバルから得た146万件の毒物行動事例および1000万件を超えるユーザー報告のラベル付きデータを用いて教師あり分類器を訓練した。
  • ゲーム内成績(例:与えたダメージ、獲得ゴールド、死亡回数)、被害者レポート、チャットログの言語的分析から特徴量を抽出した。
  • 一般化および耐障害性を向上させるために、高合意度意思決定(例:圧倒的有罪または無罪)に焦点を当てた。
  • 北米データでモデルを訓練し、ヨーロッパデータで性能を評価することで、国境間適合性をテストした。
  • モデルの性能を応用して、潜在的なコスト削減および1日あたりの保護可能なプレイヤー数を推定した。
  • 50-50ハイブリッドモデルを用いて、自動予測と人為的レビューの協働を模擬した。

実験結果

リサーチクエスチョン

  • RQ1機械学習モデルは、オンラインゲームにおけるクラウドソーシングによる毒物行動意思決定を正確に予測できるか?
  • RQ2ゲーム内および言語的特徴のうち、人為的レビューの判断に最も予測的であるものは何か?
  • RQ3北米データで訓練したモデルは、他の地域(例:ヨーロッパ)のデータに対してもどれほど一般化できるか?
  • RQ4自動予測は、人為的レビュー担当者の負担をどの程度軽減できるか?
  • RQ5このようなシステムは、無実のプレイヤーが毒物行動にさらされるのを防ぐ上で、どの程度の影響を持つ可能性があるか?

主な発見

  • モデルは、毒物行動事例における有罪・無罪の区別において80%の正確性を達成した。
  • 無罪に関する圧倒的合意の予測において88%の正確性を達成し、明確な事例において顕著な性能を示した。
  • 分類器は顕著な国境間適合性を示し、北米データで訓練したモデルがヨーロッパデータに対しても適切に動作した。
  • 早期検出による無実プレイヤーの暴露を低減することで、モデルは月間で40万人を超える無実プレイヤーを保護できる可能性がある。
  • 自動予測と人為的レビューを組み合わせたハイブリッドシステムは、トライバル単独の場合と比較して、1日あたり13,659人多くプレイヤーを保護できる。
  • 本アプローチは、意思決定の明確な事例において高い正確性を維持しつつ、人的レビュー作業の負担を軽減する実用的潜在能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。