QUICK REVIEW

[論文レビュー] Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks

Paul Röttger, Bertie Vidgen|arXiv (Cornell University)|Dec 14, 2021

Hate Speech and Cyberbullying Detection被引用数 3

ひとこと要約

本稿は、主観的NLPタスクにおける2つの対照的なデータアノテーションパラダイムを提案する：記述的（アノテーターの主観を奨励し、多様な信念を捉える）と規定的（主観を抑制し、厳密なガイドラインによって一貫した信念を固定する）である。ヘイトスピーチアノテーション実験において、これらのパラダイムは明確な違いを示した。記述的アノテーションは、個人の信念の多様性を反映してアノテーター間の合意が著しく低い傾向を示したが、規定的アノテーションは統一されたポリシーを強制することで高い一貫性を達成した。これは、データセット作成者が明示的に1つのパラダイムを選択する必要があることを示しており、これにより下流の利用が明確になることを示している。

ABSTRACT

Labelled data is the foundation of most natural language processing tasks. However, labelling data is difficult and there often are diverse valid beliefs about what the correct data labels should be. So far, dataset creators have acknowledged annotator subjectivity, but rarely actively managed it in the annotation process. This has led to partly-subjective datasets that fail to serve a clear downstream use. To address this issue, we propose two contrasting paradigms for data annotation. The descriptive paradigm encourages annotator subjectivity, whereas the prescriptive paradigm discourages it. Descriptive annotation allows for the surveying and modelling of different beliefs, whereas prescriptive annotation enables the training of models that consistently apply one belief. We discuss benefits and challenges in implementing both paradigms, and argue that dataset creators should explicitly aim for one or the other to facilitate the intended use of their dataset. Lastly, we conduct an annotation experiment using hate speech data that illustrates the contrast between the two paradigms.

研究の動機と目的

主観的NLPタスクにおけるデータアノテーションにおいて、アノテーターの主観がしばしば管理されていないという問題に対処すること。
データセット作成者が、多様なアノテーターの信念を捉えるか、単一の一貫した基準を強制するかを明示的に選択する必要があることを明確にすること。
管理されていない主観性のため、明確な下流用途を果たせない現在のデータセットの曖昧さを解消すること。
データセット作成者が、目的の用途に基づいてアノテーション設計に関する情報に基づいた意思決定を行うためのフレームワークを提供すること。

提案手法

対照的な2つのパラダイムを提案：記述的（個人の信念を奨励）と規定的（厳密なガイドラインにより単一のポリシーを強制）。
Davidsonら（2017）の研究で事前に不一致が確認された200件のTwitter投稿を用いた実証的アノテーション実験を設計。
アマゾン・メカニカル・トルーガーを介して、英国在住の成人で性的に多様性を持つ3つのグループ（各グループ20名、男性10名、女性10名）を参加者として募集。
各グループに異なるアノテーションプロンプトを割り当てた：G1（記述的）は個人の感情を尋ね、G2（規定的）は客観的基準に従うよう指示、G3（コントロール）は標準的定義を提示。
最小限のテキストクリーニング（@userとURLの置換）を実施し、再アノテーション済みデータセットをCC0-1.0ライセンスで公開して再現性を確保。
アノテーター間合意度とラベル分布の分析を通じて、パラダイムの成果を比較。

実験結果

リサーチクエスチョン

RQ1記述的および規定的アノテーションパラダイムは、主観的NLPタスクにおけるアノテーターの主観性をどのように異なる形で扱っているか？
RQ2アノテーションパラダイムの選択が、アノテーター間合意度とラベルの一貫性に与える影響は何か？
RQ3記述的アノテーションは、ヘイトスピーチに関する多様なアノテーターの信念を効果的に捉え、モデル化できるか？
RQ4規定的アノテーションは、ヘイトスピーチ検出において単一のポリシーを一貫して適用可能にできるか、その程度はいかほどか？
RQ5データセット作成者は、これらのパラダイムをどのように活用し、特定の下流用途に適合したデータセットを設計できるか？

主な発見

記述的パラダイムでは、ヘイトスピーチの定義に関する多様な個人的信念を反映して、アノテーター間の合意が著しく低く、アノテーターのグループ間で顕著なばらつきが見られた。
規定的パラダイムでは、著しく高い一貫性が達成され、アノテーターが事前に定義されたポリシーに密接に一致した。これは、標準化が効果的に実現されたことを示している。
コントロールグループ（標準的定義を使用）は中程度の合意度を示し、明確な基準があることで、純粋な主観的判断よりも一貫性が向上することを示している。
アノテーターのデモグラフィック要因（性別）が合意のパターンに影響を与え、男性と女性のアノテーター間でより高い不一致が観察された。これは、信念の多様性を検出するための多様なグループの活用が有効であることを支持する。
本研究は、管理されていない主観性が、明確な下流用途を持たない曖昧なデータセットを生み出すことを示しており、明示的にパラダイムを選択することで、データセットの目的と利用が明確にできると示している。
再アノテーション済みデータセットはCC0-1.0ライセンスで公開されており、再現性とアノテーションパラダイムの影響に関するさらなる研究を可能としている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。