QUICK REVIEW

[论文解读] Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks

Paul Röttger, Bertie Vidgen|arXiv (Cornell University)|Dec 14, 2021

Hate Speech and Cyberbullying Detection被引用 3

一句话总结

本文提出了主观 NLP 任务中两种对比鲜明的数据标注范式：描述性（鼓励标注者主观性以捕捉多样化的信念）与规定性（通过严格指南抑制主观性，以编码单一一致的信念）。在仇恨言论标注实验中，这两种范式展现出截然不同的模式：描述性标注揭示了广泛的标注者间不一致，反映出个人信念的多样性；而规定性标注通过强制统一政策实现了高度一致性，表明数据集创建者必须明确选择一种范式，才能确保下游应用的清晰性。

ABSTRACT

Labelled data is the foundation of most natural language processing tasks. However, labelling data is difficult and there often are diverse valid beliefs about what the correct data labels should be. So far, dataset creators have acknowledged annotator subjectivity, but rarely actively managed it in the annotation process. This has led to partly-subjective datasets that fail to serve a clear downstream use. To address this issue, we propose two contrasting paradigms for data annotation. The descriptive paradigm encourages annotator subjectivity, whereas the prescriptive paradigm discourages it. Descriptive annotation allows for the surveying and modelling of different beliefs, whereas prescriptive annotation enables the training of models that consistently apply one belief. We discuss benefits and challenges in implementing both paradigms, and argue that dataset creators should explicitly aim for one or the other to facilitate the intended use of their dataset. Lastly, we conduct an annotation experiment using hate speech data that illustrates the contrast between the two paradigms.

研究动机与目标

为解决主观 NLP 任务中数据标注缺乏有意设计的问题，其中标注者主观性往往未被管理。
阐明数据集创建者必须明确在捕捉多样标注者信念与强制执行单一一致标准之间进行选择。
解决当前数据集因未管理的主观性而模糊不清、无法明确服务下游用途的问题。
为数据集创建者提供一个框架，使其能根据预期用途，基于有意设计的标注策略做出明智决策。

提出的方法

提出两种对比鲜明的范式：描述性（鼓励个人信念）与规定性（通过严格指南强制执行单一政策）。
设计一项实证标注实验，使用 Davidson 等人（2017）先前研究中存在争议的 200 条 Twitter 帖子。
通过 Amazon Mechanical Turk 招募三组各 20 名英国本土、成年标注者，确保人口统计多样性（每组 10 名男性，10 名女性）。
为每组分配不同的标注提示：G1（描述性）要求表达个人感受，G2（规定性）引导至客观标准，G3（对照组）提供标准定义。
仅进行最小程度的文本清洗（将 @user 和 URL 替换为占位符），并将重新标注的数据集以 CC0-1.0 许可发布，以确保可复现性。
通过分析标注者间一致性和标签分布，比较两种范式的结果。

实验结果

研究问题

RQ1在主观 NLP 任务中，描述性与规定性标注范式在处理标注者主观性方面有何不同？
RQ2选择不同标注范式对标注者间一致性和标签一致性有何影响？
RQ3描述性标注能否有效捕捉并建模标注者对仇恨言论的多样化信念？
RQ4规定性标注在多大程度上能实现仇恨言论检测中对单一政策的一致应用？
RQ5数据集创建者如何利用这些范式，使其数据集与特定下游应用相匹配？

主要发现

描述性范式揭示了高水平的标注者间不一致，反映出人们对仇恨言论定义存在多样化的个人信念，且不同标注者群体间差异显著。
规定性范式实现了显著更高的一致性，标注者紧密遵循预设政策，证明了有效标准化。
对照组（使用标准定义）表现出中等程度的一致性，表明明确标准可提升一致性，优于纯粹主观判断。
标注者的人口统计特征（性别）影响了不一致的模式，男性与女性标注者之间表现出更高的不一致性，支持通过多样化群体探测信念差异。
本研究证明，未管理的主观性会导致数据集模糊不清，缺乏明确的下游用途；而明确选择一种范式则能清晰界定数据集的目的与用途。
重新标注的数据集已以 CC0-1.0 许可公开发布，支持可复现性，并促进对标注范式影响的进一步研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。