QUICK REVIEW

[論文レビュー] Quantifying and Attributing Polarization to Annotator Groups

Dimitris Tsirmpas, John Pavlopoulos|arXiv (Cornell University)|Jan 16, 2026

Hate Speech and Cyberbullying Detection被引用数 0

ひとこと要約

論文は apunim 指標を導入し、単一ラベルおよびマルチラベルタスクにおいて annotator の極性をサブグループに帰属させる方法を提示。統計的有意性検定とオープンソースライブラリを提供。

ABSTRACT

Current annotation agreement metrics are not well-suited for inter-group analysis, are sensitive to group size imbalances and restricted to single-annotation settings. These restrictions render them insufficient for many subjective tasks such as toxicity and hate-speech detection. For this reason, we introduce a quantifiable metric, paired with a statistical significance test, that attributes polarization to various annotator groups. Our metric enables direct comparisons between heavily imbalanced sociodemographic and ideological subgroups across different datasets and tasks, while also enabling analysis on multi-label settings. We apply this metric to three datasets on hate speech, and one on toxicity detection, discovering that: (1) Polarization is strongly and persistently attributed to annotator race, especially on the hate speech task. (2) Religious annotators do not fundamentally disagree with each other, but do with other annotators, a trend that is gradually diminished and then reversed with irreligious annotators. (3) Less educated annotators are more subjective, while educated ones tend to broadly agree more between themselves. Overall, our results reflect current findings around annotation patterns for various subgroups. Finally, we estimate the minimum number of annotators needed to obtain robust results, and provide an open-source Python library that implements our metric.

研究の動機と目的

主観的タスクにおけるグループ間アノテーションパターンを分析するための合意のみの指標を超える必要性を動機づける。
annotator サブグループへ極性を帰属させる公式フレームワークを定義する。
統計的有意性検定を伴う apunim 指標を提案・検証する。
有害/憎悪表現データセット上で手法を実演し、再現性のためのツールを提供する。

提案手法

個人特性によってアノテータグループを定義し、モデルのアノテーションを A(c) とグループラベルで表現する。
各アイテムおよびサブグループごとの極性を測るために正規化距離からの偏差距離（nDFU）を使用する。
グループサイズに一致するランダム strata 分割における平均 nDFU を用いて事前の極性 P_apr を計算する。
フィルター済みセット S_d のデータ項目全体で A(c|θ) の平均 nDFU を用いて観測極性 P_obs(d)(θ) を計算する。
apunim(θ) = (P_obs^d(θ) − P_apr^d) / (1 − P_apr^d) を用いて帰属強度を定量化する。
観測された apunim をランダムな分割と比較する permutation に似たリサンプリングアルゴリズム（アルゴリズム 1）を用いて p 値を Student-T 検定で推定する。
ノイズを減らすため、α の閾値で極性アイテム S_d にフィルタリングし、アイテムごとに複数のアノテータグループを要求する。
指標とその有意性検定を実装するオープンソースの Python ライブラリを提供し、再現コードを付す。

実験結果

リサーチクエスチョン

RQ1アノテーションタスクにおける極性は偶然を超えて特定のアノテータサブグループへ帰属させられるのか？
RQ2apunim は異なる社会人口統計的またはイデオロギー的グループに対して極性帰属の程度と方向性をどのように定量化するか？
RQ3多くのアイテムに渡る集計はアイテムレベル分析と比べて極性帰属を安定化させるか？
RQ4頑健な極性推定に必要な最小のアノテータ/サンプルサイズはどれか？
RQ5順序付き社会人口属性はデータセット全体の極性パターンにどのような影響を与えるか？

主な発見

アノテータの人種/民族性は、特に複数データセットにまたがるヘイトスピーチタスクで極性を説明する上で有意である。
宗教的アノテータは他のアノテータと意見が食い違う傾向があるが、互いに大きくは異ならず、グループとデータセットごとに効果が変化する。
教育水準が低いアノテータは主観性が高い傾向があり、教育水準が高いアノテータは自分たちの間でより同意しやすい。
一部の次元はサブグループ間で総和がゼロとなり体系的影響がないことを示す一方、他の次元はデータセット全体の極性に非対称な効果を示す。
DICES-350, DICES-990, Sap は人種/民族性への極性帰属が最も強い。 Kumar はターゲット個人が正の寄与を、トランスジェンダー個人が負の寄与をする等、体系的な非対称を示す。
オープンソースのライブラリと再現コードを提供し、apunim の適用と結果の再現を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。