QUICK REVIEW

[논문 리뷰] Measuring the Reliability of Hate Speech Annotations: The Case of the European Refugee Crisis

Björn Roß, Michael Rist|arXiv (Cornell University)|2017. 01. 27.

Hate Speech and Cyberbullying Detection참고 문헌 6인용 수 106

한 줄 요약

이 논문은 혐오 발언 주석의 신뢰성을 얼마나 일관되게 평가할 수 있는지와 주석자에게 정의를 제시하는 것이 신뢰성에 미치는 영향을 평가하며, 합의가 매우 낮고 이진 예/아니오보다 더 미묈한 라벨링이 필요하다고 제안한다.

ABSTRACT

Some users of social media are spreading racist, sexist, and otherwise hateful content. For the purpose of training a hate speech detection system, the reliability of the annotations is crucial, but there is no universally agreed-upon definition. We collected potentially hateful messages and asked two groups of internet users to determine whether they were hate speech or not, whether they should be banned or not and to rate their degree of offensiveness. One of the groups was shown a definition prior to completing the survey. We aimed to assess whether hate speech can be annotated reliably, and the extent to which existing definitions are in accordance with subjective ratings. Our results indicate that showing users a definition caused them to partially align their own opinion with the definition but did not improve reliability, which was very low overall. We conclude that the presence of hate speech should perhaps not be considered a binary yes-or-no decision, and raters need more detailed instructions for the annotation.

연구 동기 및 목표

난민 위기 트위터 코퍼스에서 혐오 발언 주석 간의 상호 주석자 신뢰성을 추정한다.
주석자에게 공식적인 혐오 발언 정의를 제공한 것이 신뢰성과 라벨링 결정에 미치는 영향을 평가한다.
혐오 발언을 이진 라벨로 처리할지 아니면 연속적인 공격성 척도로 처리할지 평가한다.
더 신뢰할 수 있는 혐오 발언 데이터셋과 분류기를 구축하기 위한 지침을 제공한다.

제안 방법

난민 위기와 관련된 541개의 트윗으로부터 독일어 혐오 발언 코퍼스를 구축한다.
56명의 참가자를 대상으로 Twitter 기반 정의를 포함/미포함하는 두 개의 온라인 설문조조를 between-subjects 디자인으로 수행한다.
각 참가자가 20개의 트윗에 대해 혐오 발언, 금지, 그리고 공격성에 대해 6점 척도로 라벨링하도록 한다.
그룹 및 질문 간의 상호 주석자 신뢰도를 평가하기 위해 Krippendorff의 α를 계산한다.
정의 그룹과 비정의 그룹 간의 응답을 비교하고 트윗별 혐오 발언 판단의 상관관계를 분석한다.

실험 결과

연구 질문

RQ1공식적 정의를 제공하는 것이 혐오 발언 주석의 신뢰성을 향상시키는가?
RQ2데이터셋에서 혐오 발언 주석의 상호 주석자 신뢰도 수준은 어느 정도인가?
RQ3이진 혐오 발언 판단과 인지된 공격성 또는 금지 결정은 어떻게 비교되는가?
RQ4혜오 발언 주석은 회귀 문제로 모델링해야 하는가 아니면 이진 분류로 해야 하는가?

주요 결과

그룹	참가자 수	나이(평균)	성별(% 여성)	혐오 발언(% 예)	금지(% 예)	공격성(평균)
Def.	25	33.3	43.5	32.6	32.6	3.49
No def.	31	30.5	58.6	40.3	17.6	3.42

상호 주석자 신뢰도는 매우 낮으며 Krippendorff의 α가 0.18에서 0.29 사이.
Twitter 정의를 제공하면 정의와의 정합성이 증가했으나 전체 신뢰도는 향상되지 않았다.
정의를 제시받은 참가자들은 정의를 받지 않은 참가자들보다 특정 트윗의 차단을 제안할 가능성이 더 높았으며(차단 결정에 대해 유의미한 차이).
트윗별로 혐오 발언으로 간주되는 것에 대해 두 그룹 간 강한 상관관계가 있다( r = .895, p < .0001 ).
저자들은 각 트윗에 다중 라벨을 권장하고 이진 라벨 대신 혐오 정도를 포착하는 회귀 스타일 접근을 고려할 것을 권고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.