QUICK REVIEW

[논문 리뷰] Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks

Paul Röttger, Bertie Vidgen|arXiv (Cornell University)|2021. 12. 14.

Hate Speech and Cyberbullying Detection인용 수 3

한 줄 요약

이 논문은 주관적인 NLP 작업을 위한 두 가지 대조적인 데이터 주석화 범주를 제안한다: 서술적(주관성을 장려하여 다양한 신념을 반영함)과 규범적(엄격한 지침을 통해 주관성을 억제하여 단일이고 일관된 신념을 구현함). 혐오 발언 주석화 실험에서 이 범주들은 각각 다른 패턴을 드러냈다: 서술적 주석화는 다양한 개인적 신념을 반영해 주석자 간 광범위한 이견을 드러냈고, 규범적 주석화는 통일된 정책을 강제함으로써 높은 일관성을 달성했다. 이는 데이터셋 제작자가 명시적으로 한 가지 범주를 선택해야만 후속 작업에 명확한 목적을 부여할 수 있음을 보여준다.

ABSTRACT

Labelled data is the foundation of most natural language processing tasks. However, labelling data is difficult and there often are diverse valid beliefs about what the correct data labels should be. So far, dataset creators have acknowledged annotator subjectivity, but rarely actively managed it in the annotation process. This has led to partly-subjective datasets that fail to serve a clear downstream use. To address this issue, we propose two contrasting paradigms for data annotation. The descriptive paradigm encourages annotator subjectivity, whereas the prescriptive paradigm discourages it. Descriptive annotation allows for the surveying and modelling of different beliefs, whereas prescriptive annotation enables the training of models that consistently apply one belief. We discuss benefits and challenges in implementing both paradigms, and argue that dataset creators should explicitly aim for one or the other to facilitate the intended use of their dataset. Lastly, we conduct an annotation experiment using hate speech data that illustrates the contrast between the two paradigms.

연구 동기 및 목표

주관적인 NLP 작업의 데이터 주석화에서 의 intensional design의 부재 문제를 해결하기 위해, 주석자 주관성이 종종 관리되지 않는 상황을 다루기 위함.
데이터셋 제작자가 다양한 주석자 신념을 반영할 것인지, 또는 단일이고 일관된 기준을 강제로 적용할 것인지 명시적으로 선택해야 한다는 점을 명확히 하기 위함.
주관성이 관리되지 않아 명확한 후속 목적을 갖지 못하는 현재의 데이터셋들이 애매모호한 문제를 해결하기 위함.
의도된 용도에 따라 주석 설계에 대한 정보 기반 결정을 내릴 수 있도록 데이터셋 제작자들을 돕는 프레임워크 제공

제안 방법

서술적(개인적 신념 장려)과 규범적(엄격한 지침을 통한 단일 정책 강제)이라는 대조적인 두 가지 주석화 범주를 제안.
Davidson 등(2017)이 이전에 이견을 보인 200개의 트위터 게시물에 기반한 실증적 주석화 실험을 설계.
Amazon Mechanical Turk를 통해 영국에 거주하는 성인 주석자 3개 그룹(각 그룹 20명)을 모집하여 인구 통계적 다양성 확보(각 그룹당 남성 10명, 여성 10명).
각 그룹에 다른 주석 프롬프트를 할당: G1(서술적)은 개인적 감정을 요청하고, G2(규범적)는 객관적 기준을 안내하며, G3(대조군)는 표준 정의를 제공.
최소한의 텍스트 정제(사용자명 @user 및 URL 치환)를 수행하고, 재주석화된 데이터셋을 재현 가능성을 위해 CC0-1.0 라이선스 하에 공개.
주석자 간 일치도와 레이블 분포를 분석하여 각 범주의 결과를 비교.

실험 결과

연구 질문

RQ1서술적 주석화 범주와 규범적 주석화 범주 간 주관적인 NLP 작업에서 주석자 주관성의 처리 방식에 어떤 차이가 있는가?
RQ2주석화 범주 선택이 주석자 간 일치도와 레이블 일관성에 어떤 영향을 미치는가?
RQ3서술적 주석화가 혐오 발언에 대한 다양한 주석자 신념을 효과적으로 반영하고 모델링할 수 있는가?
RQ4규범적 주석화가 혐오 발언 탐지에서 단일 정책의 일관된 적용을 어느 정도 가능하게 하는가?
RQ5데이터셋 제작자는 이러한 범주들을 어떻게 활용하여 자신의 데이터셋을 특정 후속 응용과 일치시킬 수 있는가?

주요 결과

서술적 범주에서는 주석자 간 높은 이견이 드러났으며, 이는 혐오 발언의 기준에 대한 다양한 개인적 신념을 반영한 것으로, 주석자 그룹 간 심한 변동성이 관찰되었다.
규범적 범주에서는 상당히 높은 일관성이 달성되었으며, 주석자들이 사전에 정의된 정책에 밀접하게 부합함으로써 효과적인 표준화가 이루어졌음을 보여주었다.
대조군은 표준 정의를 사용하여 중간 정도의 일치도를 보였으며, 이는 명시적인 기준이 순수 주관적 판단보다 일관성을 향상시킨다는 점을 시사한다.
주석자 인구 통계적 특성(성별)이 이견 패턴에 영향을 미쳤으며, 남성과 여성 주석자 간 이견이 더 높게 관찰되어 다양한 그룹을 활용해 신념의 다양성을 탐색하는 데 유용함을 뒷받침한다.
본 연구는 관리되지 않은 주관성이 애매모호한 데이터셋을 초래하고 명확한 후속 활용 가치를 제공하지 못함을 입증하였고, 명시적인 범주 선택이 더 명확한 데이터셋 목적과 활용 가능성을 가능하게 한다는 점을 보여주었다.
재주석화된 데이터셋은 CC0-1.0 라이선스 하에 공개되어 재현 가능성을 확보하고, 주석화 범주 효과에 대한 향후 연구를 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.