Skip to main content
QUICK REVIEW

[논문 리뷰] Ex Machina: Personal Attacks Seen at Scale

Ellery Wulczyn, Nithum Thain|arXiv (Cornell University)|2016. 10. 27.
Hate Speech and Cyberbullying Detection참고 문헌 23인용 수 203
한 줄 요약

본 논문은 대규모로 영어 위키피디아에서 개인적 공격을 탐지하기 위해 크라우드소싱과 기계 학습을 결합하고, 약 3명의 크라우드 워커의 라벨링에 일치하는 분류기를 보여주며 공격의 발생률과 패턴을 분석한다.

ABSTRACT

The damage personal attacks cause to online discourse motivates many platforms to try to curb the phenomenon. However, understanding the prevalence and impact of personal attacks in online platforms at scale remains surprisingly difficult. The contribution of this paper is to develop and illustrate a method that combines crowdsourcing and machine learning to analyze personal attacks at scale. We show an evaluation method for a classifier in terms of the aggregated number of crowd-workers it can approximate. We apply our methodology to English Wikipedia, generating a corpus of over 100k high quality human-labeled comments and 63M machine-labeled ones from a classifier that is as good as the aggregate of 3 crowd-workers, as measured by the area under the ROC curve and Spearman correlation. Using this corpus of machine-labeled scores, our methodology allows us to explore some of the open questions about the nature of online personal attacks. This reveals that the majority of personal attacks on Wikipedia are not the result of a few malicious users, nor primarily the consequence of allowing anonymous contributions from unregistered users.

연구 동기 및 목표

  • 위키피디아 토크 페이지에서 개인적 공격의 유병률과 영향을 대규모로 정량화한다.
  • 개인적 공격을 위한 대용량 말뭉치를 라벨링하기 위해 크라우드소싱과 기계 학습을 결합한 확장 가능한 방법론을 개발한다.
  • 기계 라벨링 데이터가 크라우드 판단을 얼마나 잘 근사하는지 평가하고 신뢰 가능한 분석을 위한 임계치를 보정한다.
  • 하위 그룹, 기여자 유형, 중재 조치에 걸친 공격에 대한 종적 분석을 가능하게 한다.

제안 방법

  • 댓글당 다수의 주석자를 사용하여 개인적 공격을 식별하기 위한 Wikipedia 토크 댓글의 라벨링 말뭉치를 크라우드소싱한다.
  • 단어 또는 문자 n-그램 특징을 사용하여 이진 텍스트 분류기(LR 및 MLP)를 훈련한다.
  • 두 가지 라벨링 스킴을 실험한다: 원-핫(OH) 다수 라벨과 공격 예측 크기를 나타내는 경험적 분포(ED) 라벨.
  • 모형을 AUC와 Spearman 상관계수를 사용하여 예측과 크라우드 주석 라벨을 비교 평가한다.
  • 기계 학습 모델과 주석자 앙상블을 비교하는 평가 프레임워크를 개발한다(주석자 앙상블 베이스라인).
  • 최고 성능 모형을 전체 Wikipedia 댓글 기록에 주석을 달고 대규모 분석을 수행하는 데 적용한다.

실험 결과

연구 질문

  • RQ1위키피디아 토크 페이지에서 개인적 공격의 유병률은 얼마이며, 사용자의 익명성 및 활동에 따라 어떻게 달라지는가?
  • RQ2확장 가능한 공격 탐지를 위해 크라우드 라벨링 주석이 기계 생성 라벨에 비해 얼마나 효과적인가?
  • RQ3토론 중 공격이 중재 조치 및 시점과 어떤 관계가 있는가?

주요 결과

Model TypeN-Gram TypeLabel TypeAUCSpearman
LRWordOH94.6253.16
LRWordED95.5565.20
LRCharOH96.1859.20
LRCharED96.2466.68
MLPWordOH95.2556.11
MLPWordED96.1566.33
MLPCharOH95.9058.77
MLPCharED96.5968.17
  • 문자 n-그램 특징이 모델 전반에서 단어 n-그램 특징보다 우수하다.
  • 경험적 분포 (ED) 라벨로 훈련된 모델이 원-핫 (OH) 라벨로 훈련된 모델보다 AUC와 Spearman 상관에서 더 우수하다.
  • 최고 성능 구성을 가진 구성들(문자 n-그램과 ED 라벨링)은 개발 데이터에서 AUC 약 96–96.6 및 Spearman 약 66–68을 달성한다.
  • 크기가 3인 주석자 앙상블은 최고 기계 모델에 비견되는 성능을 보이며, 즉 분류기가 세 명의 크라우드워커를 근사한다.
  • 무작위 샘플에서 약 0.8%의 댓글이 공격으로 라벨링되며, 학습에 사용된 “blocked” 데이터세트에서의 유병률은 약 11.7%이다.
  • 익명 편집자는 공격적인 댓글을 작성할 가능성이 여섯 배 더 높지만, 익명 계정의 볼륨 차이로 인해 전체 공격의 절반 미만만이 기여한다.
  • 공격의 다섯 분의 한도 미만이 중재자 조치(경고/차단)를 촉발하고, 시간에 따른 공격의 클러스터링은 조기 중재가 효과적일 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.