QUICK REVIEW

[論文レビュー] Measuring the Reliability of Hate Speech Annotations: The Case of the European Refugee Crisis

Björn Roß, Michael Rist|arXiv (Cornell University)|Jan 27, 2017

Hate Speech and Cyberbullying Detection参考文献 6被引用数 106

ひとこと要約

tldr: 本論文はヘイトスピーチの注釈付けの信頼性と、注釈者に定義を提示することが信頼性を高めるかを評価し、非常に低い一致度を示すとともに、二値のはい/いいえよりもよりニュアンスのあるラベリングが必要であると示唆しています。

ABSTRACT

Some users of social media are spreading racist, sexist, and otherwise hateful content. For the purpose of training a hate speech detection system, the reliability of the annotations is crucial, but there is no universally agreed-upon definition. We collected potentially hateful messages and asked two groups of internet users to determine whether they were hate speech or not, whether they should be banned or not and to rate their degree of offensiveness. One of the groups was shown a definition prior to completing the survey. We aimed to assess whether hate speech can be annotated reliably, and the extent to which existing definitions are in accordance with subjective ratings. Our results indicate that showing users a definition caused them to partially align their own opinion with the definition but did not improve reliability, which was very low overall. We conclude that the presence of hate speech should perhaps not be considered a binary yes-or-no decision, and raters need more detailed instructions for the annotation.

研究の動機と目的

難民危機に関連する Twitter コーパスにおけるヘイトスピーチ注釈の査読者間信頼性を推定する。
注釈者に公式なヘイトスピース定義を提示する効果が信頼性とラベリング決定に与える影響を評価する。
ヘイトスピースを二値ラベルとして扱うべきか、連続性/攻撃性スケールとして扱うべきかを評価する。
より信頼性の高いヘイトスピースデータセットと分類器を構築するための指針を提供する。

提案手法

難民危機に関連する541ツイートからドイツ語のヘイトスピースコーパスを構築する。
Twitterベースの定義あり・なしを用いた2つのオンライン調査を、56名の参加者を対象とした被験者間デザインで実施する。
各参加者に20ツイートをヘイトスピース、 ban、および offensiveness の6段階尺度でラベル付けさせる。
Krippendorff’s alpha を計算してグループ間および質問間の査読者間信頼性を評価する。
定義グループと非定義グループの回答を比較し、ツイートごとのヘイトスピーチ判断の相関を分析する。

実験結果

リサーチクエスチョン

RQ1 formal definition を提供すると注釈の信頼性は向上するか？
RQ2データセットにおけるヘイトスピーチ注釈の査読者間信頼性のレベルはどれくらいか？
RQ3ヘイトスピーチの二値判断と不快感や-ban決定の間にどのような関係があるか？
RQ4ヘイトスピーチ注釈は回帰問題としてモデル化すべきか、それとも二値分類か？

主な発見

グループ	参加者	年齢（平均）	性別（女性割合）	ヘイトスピース（はい）	Ban（はい）	不快感（平均）
定義あり	25	33.3	43.5	32.6	32.6	3.49
定義なし	31	30.5	58.6	40.3	17.6	3.42

査読者間信頼性は非常に低く、Krippendorff’s alpha は 0.18 から 0.29 の範囲。
ツイッターの定義を提示すると定義との整合性は高まるが、全体的な信頼性は改善されない。
定義を示された参加者は、定義を見せなかった参加者よりもツイートの ban を提案する可能性が高かった（Ban 判断で有意差）。
グループ間でツイートごとに何がヘイトスピースと見なされるかについて強い相関がある（r = .895, p < .0001）。
著者は各ツイートに対して複数ラベルを推奨し、二値ラベルよりもヘイトの度合いを捉える回帰風のアプローチを検討すべきであると提案している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。