QUICK REVIEW

[논문 리뷰] Quantifying and Attributing Polarization to Annotator Groups

Dimitris Tsirmpas, John Pavlopoulos|arXiv (Cornell University)|2026. 01. 16.

Hate Speech and Cyberbullying Detection인용 수 0

한 줄 요약

본 논문은 단일- 및 다중 레이블 작업에서 하위 그룹에 대한 주석자 편향을 정량화하고 속성화하기 위한 apunim 지표를 도입하며, 통계적 유의성 검정과 오픈소스 라이브러리를 포함한다.

ABSTRACT

Current annotation agreement metrics are not well-suited for inter-group analysis, are sensitive to group size imbalances and restricted to single-annotation settings. These restrictions render them insufficient for many subjective tasks such as toxicity and hate-speech detection. For this reason, we introduce a quantifiable metric, paired with a statistical significance test, that attributes polarization to various annotator groups. Our metric enables direct comparisons between heavily imbalanced sociodemographic and ideological subgroups across different datasets and tasks, while also enabling analysis on multi-label settings. We apply this metric to three datasets on hate speech, and one on toxicity detection, discovering that: (1) Polarization is strongly and persistently attributed to annotator race, especially on the hate speech task. (2) Religious annotators do not fundamentally disagree with each other, but do with other annotators, a trend that is gradually diminished and then reversed with irreligious annotators. (3) Less educated annotators are more subjective, while educated ones tend to broadly agree more between themselves. Overall, our results reflect current findings around annotation patterns for various subgroups. Finally, we estimate the minimum number of annotators needed to obtain robust results, and provide an open-source Python library that implements our metric.

연구 동기 및 목표

주관적 작업에서 그룹 간 주석 패턴을 분석하기 위한 동의 이상 지표의 필요성을 동기화한다.
주석자 하위그룹에 편향을 속성화하기 위한 형식적 프레임워크를 정의한다.
통계적 유의성 검정과 함께 apunim 지표를 제안하고 검증한다.
독성 및 혐오발언 데이터셋에서 방법을 시연하고 재현을 위한 도구를 제공한다.

제안 방법

주석자 그룹을 개인 특성에 따라 정의하고 A(c)로 모델 주석을 그룹 라벨과 함께 표현한다.
항목별 및 하위그룹별 편향을 측정하기 위해 정규화된 비모노토니성 거리(nDFU)를 사용한다.
그룹 크기에 맞추어진 무작위 층화 분할에 대한 평균 nDFU를 사용하여 apriori 편향 P_apr를 계산한다.
필터링된 집합 S_d의 데이터셋 항목에서 A(c|θ)의 평균 nDFU를 사용하여 관찰된 편향 P_obs(d)(θ)을 계산한다.
편향 속도를 정량화하기 위해 apunim(θ) = (P_obs^d(θ) − P_apr^d) / (1 − P_apr^d)로 정의한다.
관찰된 apunim을 난수 분할과 비교하는 순열 유사 재샘플링 알고리즘(알고리듬 1)을 통해 p-값을 추정하고 Student-T 검정을 수행한다.
잡음을 줄이기 위해 α 임계값으로 극편향 아이템 S_d를 필터링하고 항목당 다수의 주석자 그룹이 필요하도록 한다.
지표 및 유의성 검정을 구현한 오픈소스 파이썬 라이브러리를 제공하고 재현 코드를 포함한다.

실험 결과

연구 질문

RQ1주석 작업에서 편향을 우연보다 특정 주석자 하위그룹에 속하는 원인으로 귀속할 수 있는가?
RQ2apunim이 서로 다른 사회인구학적 또는 이념적 그룹에 대한 편향 귀속의 정도와 방향을 어떻게 정량화하는가?
RQ3다수의 항목에서의 집계가 항목별 분석에 비해 편향 귀속을 안정적으로 만드는가?
RQ4강건한 편향 추정을 위한 최소 주석자/샘플 크기는 얼마인가?
RQ5서수형 사회인구학적 속성이 데이터셋 전반의 편향 패턴에 어떤 영향을 미치는가?

주요 결과

주석자의 인종/민족이 특히 혐오 발언 작업에서 여러 데이터셋에 걸쳐 편향을 상당히 설명한다.
종교적 주석자들은 다른 주석자들과는 다르게 의견이 다소 다를 수 있지만 서로 간에는 크게 다르지 않으며, 그룹과 데이터셋에 따라 효과가 진화한다.
학력이 낮은 주석자일수록 주관성이 더 크고, 학력이 높은 주석자일수록 서로 간에 더 많이 동의하는 경향이 있다.
일부 차원이 하위그룹 간 합이 영으로 나타나 체계적인 영향이 없음을 시사하는 반면, 다른 차원은 데이터셋의 전반적 편향에 비대칭적 영향을 보인다.
DICES-350, DICES-990, Sap은 인종/민족에 대한 편향 속성을 가장 강하게 보여주고, Kumar는 특정 대상 개인의 기여가 양의 편향을, 트랜스젠더 개인의 기여가 음의 편향을 보이는 등 체계적인 비대칭을 나타낸다.
오픈소스 라이브러리와 재현 코드를 공개하여 apunim과 재현 가능한 결과를 적용할 수 있게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.