Skip to main content
QUICK REVIEW

[論文レビュー] Consistency is Key: Disentangling Label Variation in Natural Language Processing with Intra-Annotator Agreement

Gavin Abercrombie, Dinkar, Tanvi|arXiv (Cornell University)|Jan 25, 2023
Topic Modeling被引用数 7
ひとこと要約

要約: 本論文はラベル安定性を評価するために、インライアノテータ一致とインタ-アノテータ一致を同時に測定することを提案し、NLPのラベリングタスクにおける不一致を解釈するための信頼性-安定性マトリクスを提案します。

ABSTRACT

We commonly use agreement measures to assess the utility of judgements made by human annotators in Natural Language Processing (NLP) tasks. While inter-annotator agreement is frequently used as an indication of label reliability by measuring consistency between annotators, we argue for the additional use of intra-annotator agreement to measure label stability (and annotator consistency) over time. However, in a systematic review, we find that the latter is rarely reported in this field. Calculating these measures can act as important quality control and could provide insights into why annotators disagree. We conduct exploratory annotation experiments to investigate the relationships between these measures and perceptions of subjectivity and ambiguity in text items, finding that annotators provide inconsistent responses around 25% of the time across four different NLP tasks.

研究の動機と目的

  • NLPのアノテーションタスクにおいて、インライアノタ一致性を標準指標として追加することを動機づける。
  • インライアノテータの一致がインタ-アノテータの一致を補完し、ラベルのばらつきの原因を診断する方法を示す。
  • 信頼性-安定性マトリクスを用いて、インタ-およびインライアノテータの一致を解釈する枠組みを提案する。
  • agreement 指標と主観性・曖昧さの知覚を結びつける探索的アノテーション実験を設計する。

提案手法

  • インタ-アノテータの信頼性とインライアノテータの安定性を対応づける信頼性-安定性マトリクスを導入する。
  • タスクまたはデータセットレベルの解釈を計算するために、コーエンのκ、クリップフォンドフのα、ICCなどの標準一致度指標を用いることを提案する。
  • 個々の实例におけるラベル変動の理由を検討する定性的分析を提案する。
  • 不一致の合理化を含む再ラベリングを伴う探索的アノテーションプロトコルを概説する。
  • 安定性と不安定性の合理化原因との関係を Phi係数で定量分析する計画を立てる。

実験結果

リサーチクエスチョン

  • RQ1インタ-アノテータの信頼性とインライアノタの安定性は、ラベルの知覚的主観性と曖昧さにどのように関連するか。
  • RQ2社会的タスク(攻撃的言語、感情)と語彙タスク(含意、照応)で、ラベルのばらつきのパターンは安定性において異なるか。
  • RQ3信頼性-安定性マトリクスはNLPラベリングにおける高い主観性と高い曖昧さを区別できるか。

主な発見

  • インライアノテータの一致は、時間を超えたラベル安定性の指標として機能し、インタ-アノテータの信頼性を補完する。
  • 信頼性-安定性マトリクスは、タスクの難易度・曖昧さ・主観性・品質を四つのケースで解釈する枠組みを提供する。
  • 協働的な探索的アノテーション計画を提案し、 agreement 指標と不一致の理由との関係を経験的に調査する。
  • 研究は今後の結果のための事前登録と方法論的考慮を含む計画段階を報告する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。