QUICK REVIEW

[논문 리뷰] To Act or React: Investigating Proactive Strategies For Online Community Moderation

Hussam Habib, Maaz Bin Musa|arXiv (Cornell University)|2019. 06. 27.

Hate Speech and Cyberbullying Detection인용 수 32

한 줄 요약

이 논문은 설명 가능 기계학습을 사용하여 악성 또는 위험한 커뮤니티로의 진화 가능성을 사전 예측함으로써 Reddit에 대한 수동적 모니터링을 제안한다. 분석 결과, 알려진 문제 있는 서브레딧과의 구조적 연결성이 가장 강력한 예측 변수임을 확인하였으며, 이러한 커뮤니티에 가입하는 것은 사용자의 예절 수준을 떨어뜨리지만, 현재의 금지 및 격리 조치는 이러한 행동을 바로 잡지 못함을 확인하여, 더 효과적인 개입의 필요성을 드러낸다.

ABSTRACT

Reddit administrators have generally struggled to prevent or contain such discourse for several reasons including: (1) the inability for a handful of human administrators to track and react to millions of posts and comments per day and (2) fear of backlash as a consequence of administrative decisions to ban or quarantine hateful communities. Consequently, as shown in our background research, administrative actions (community bans and quarantines) are often taken in reaction to media pressure following offensive discourse within a community spilling into the real world with serious consequences. In this paper, we investigate the feasibility of proactive moderation on Reddit -- i.e., proactively identifying communities at risk of committing offenses that previously resulted in bans for other communities. Proactive moderation strategies show promise for two reasons: (1) they have potential to narrow down the communities that administrators need to monitor for hateful content and (2) they give administrators a scientific rationale to back their administrative decisions and interventions. Our work shows that communities are constantly evolving in their user base and topics of discourse and that evolution into hateful or dangerous (i.e., considered bannable by Reddit administrators) communities can often be predicted months ahead of time. This makes proactive moderation feasible. Further, we leverage explainable machine learning to help identify the strongest predictors of evolution into dangerous communities. This provides administrators with insights into the characteristics of communities at risk becoming dangerous or hateful. Finally, we investigate, at scale, the impact of participation in hateful and dangerous subreddits and the effectiveness of community bans and quarantines on the behavior of members of these communities.

연구 동기 및 목표

서브레딧이 시간이 지남에 따라 변화하는지 여부를 조사하여, 사용자 기반과 주제가 안정적이라는 가정에 도전한다.
악성 또는 위험한 커뮤니티로의 진화 가능성이 사전에 예측 가능한지 판단한다.
악성 서브레딧에 가입한 후 금지 또는 격리 조치가 Reddit 전반의 사용자 행동에 미치는 영향을 평가한다.
관리자들이 정당화하고 모니터링 결정을 개선할 수 있도록 데이터 기반의 설명 가능 도구를 제공한다.
서브레딧이 유해 콘텐츠로의 진화를 예측할 수 있는 구조적 및 행동적 특징을 특정한다.

제안 방법

유저 기반과 주제 분포의 변화를 유사도 측정 기반으로 정량화하여 서브레딧의 진화를 추적한다.
커뮤니티, 사용자, 모더레이터, 구조적 특징을 기반으로 서브레딧이 향후 금지되거나 격리될 가능성을 예측하기 위해 설명 가능한 기계학습 모델을 개발한다.
특히 서브레딧 간 사용자 상호작용을 중심으로 한 네트워크 기반 특징을 모델의 핵심 예측 변수로 사용한다.
악성 서브레딧에 가입한 후 및 커뮤니티 수준의 조치(금지/격리) 이후 사용자 행동을 대규모로 분석한다.
악성 서브레딧에 가입한 사용자와 유사한 조건의 가입하지 않은 사용자를 비교하는 대조군 방법론을 적용하여 인과적 영향을 분리한다.
서브레딧 진화 예측에 가장 영향을 미치는 특징을 식별하고 순위를 매기는 기법을 활용하여 관리자에게 해석 가능성을 향상시킨다.

실험 결과

연구 질문

RQ1서브레딧은 시간이 지나도 안정적인 사용자 기반과 주제를 유지하는가, 아니면 지속적으로 진화하는가?
RQ2악성 또는 위험한 커뮤니티로의 진화 가능성을 사전에 예측할 수 있는가?
RQ3악성 서브레딧에 가입하면 다른 커뮤니티에서 사용자의 예절 수준에 어떤 영향을 미치는가?
RQ4Reddit의 현재 커뮤니티 수준의 조치(금지 및 격리)가 영향을 받는 사용자들의 예절 수준 저하를 효과적으로 줄이는가?
RQ5서브레딧의 향후 유해 행동을 예측하는 데 가장 강력한 커뮤니티 수준의 특징은 무엇인가?

주요 결과

서브레딧은 사용자 기반과 주제 집중도에서 모두 높은 수준의 지속적 진화를 보이며, 정적 모니터링 전략은 효과가 없다.
특히 문제 있는 서브레딧과의 사용자 연결성을 포함한 구조적 특징이 서브레딧의 향후 유해 행동을 예측하는 데 가장 강력한 예측 변수였다.
악성 서브레딧에 가입하는 것은 기초 행동을 보정한 후에도 다른 커뮤니티에서 사용자의 예절 수준을 뚜렷이 떨어뜨린다.
금지 및 격리 조치와 같은 커뮤니티 수준의 조치는 사용자 예절 수준의 악화를 되돌리지 못해 효과가 제한적임을 확인하였다.
최종적으로 금지되거나 격리된 서브레딧의 진화 패턴은 안정적 또는 비악성 커뮤니티와 뚜렷하게 다름을 확인하여 조기 탐지 가능성을 입증하였다.
설명 가능한 기계학습 모델은 향후 유해 행동을 상당히 높은 정확도로 예측하여 사전 모니터링의 과학적 근거를 제공하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.