[논문 리뷰] STFU NOOB! Predicting Crowdsourced Decisions on Toxic Behavior in Online Games
이 논문은 리그 오브 레전드의 1,000만 건 이상의 보고서를 바탕으로 온라인 게임에서의 독성 행동에 대한 커뮤니티 기반 결론을 예측하기 위한 지도 학습 모델을 제안한다. 게임 내 성과, 채팅 기록, 피해자 보고를 분석함으로써 모델은 독성 행동 탐지에 80%의 정확도와 무죄에 대한 압도적 합의 예측에 88%의 정확도를 달성하여 강력한 다국적 적용 가능성과 인간 검토 부담 감소 잠재력을 보여준다.
One problem facing players of competitive games is negative, or toxic, behavior. League of Legends, the largest eSport game, uses a crowdsourcing platform called the Tribunal to judge whether a reported toxic player should be punished or not. The Tribunal is a two stage system requiring reports from those players that directly observe toxic behavior, and human experts that review aggregated reports. While this system has successfully dealt with the vague nature of toxic behavior by majority rules based on many votes, it naturally requires tremendous cost, time, and human efforts. In this paper, we propose a supervised learning approach for predicting crowdsourced decisions on toxic behavior with large-scale labeled data collections; over 10 million user reports involved in 1.46 million toxic players and corresponding crowdsourced decisions. Our result shows good performance in detecting overwhelmingly majority cases and predicting crowdsourced decisions on them. We demonstrate good portability of our classifier across regions. Finally, we estimate the practical implications of our approach, potential cost savings and victim protection.
연구 동기 및 목표
- 온라인 게임에서의 커뮤니티 기반 독성 행동 모니터링에 따른 높은 인적 및 시간적 비용을 줄이기 위해.
- 기계학습을 활용해 인간 검토 기반의 독성 행동 결정 결과를 모델링하고 예측하기 위해.
- 독성 판단에 영향을 주는 게임 내 및 언어적 특징을 이해하기 위해.
- 기계학습을 활용한 사전 필터링 또는 보조 모니터링의 가능성을 평가하기 위해.
- 자동화된 예측을 통한 비용 절감 및 피해자 보호 잠재력 추정하기 위해.
제안 방법
- 리그 오브 레전드 트라이부널의 146만 건 이상의 독성 플레이어 사례 및 1,000만 건 이상의 사용자 보고서에서 레이블링된 데이터를 기반으로 지도 학습 분류기 학습.
- 게임 내 성과(예: 피해량, 획득 골드, 사망 수), 피해자 보고, 채팅 기록의 언어 분석을 활용한 특징 추출.
- 일관된 결정(예: 압도적 유죄 또는 무죄)에 집중하여 모델의 일반화 능력과 강건성을 향상.
- 북미 데이터로 모델을 학습하고 유럽 데이터에서 성능을 평가하여 다국적 적용 가능성 테스트.
- 모델 성능을 활용해 잠재적 비용 절감 및 매일 보호 가능한 플레이어 수 추정.
- 자동 예측과 인간 검토의 협업을 시뮬레이션하기 위해 50-50 하이브리드 모델 적용.
실험 결과
연구 질문
- RQ1기계학습 모델은 온라인 게임에서 인간 기반 커뮤니티 결론의 독성 행동 예측에 정확하게 수행할 수 있는가?
- RQ2게임 내 및 언어적 특징 중 인간 검토자의 판단에 가장 예측력 있는 요소는 무엇인가?
- RQ3한 지역에서 학습한 모델이 다른 지역으로 일반화되는 정도는 어느 정도인가?
- RQ4자동화된 예측이 인간 검토자 부담을 어느 정도 줄일 수 있는가?
- RQ5이러한 시스템이 무죄 플레이어가 독성 행동에 노출되는 것을 방지하는 데 미치는 잠재적 영향은 무엇인가?
주요 결과
- 모델은 독성 행동 사례에서 유죄와 무죄 행동을 구분하는 데 80%의 정확도를 달성했다.
- 무죄에 대한 압도적 합의를 예측하는 데 88%의 정확도를 기록하여 명백한 사례에서 강력한 성능을 보였다.
- 분류기는 강력한 다국적 적용 가능성을 보였으며, 북미 데이터로 학습한 모델이 유럽 데이터에서도 잘 작동했다.
- 조기 탐지로 독성 플레이어의 노출을 줄임으로써 모델은 월간 약 40만 명 이상의 무죄 플레이어를 보호할 수 있을 잠재력을 지녔다.
- 자동 예측과 인간 검토를 융합한 하이브리드 시스템은 트라이부널 단독 운영 대비 매일 약 13,659명 더 많은 플레이어를 보호할 수 있었다.
- 결정적인 사례에서 높은 정확도를 유지하면서 인간 검토 부담 감소 잠재력을 실현 가능한 실용적 접근임을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.