Skip to main content
QUICK REVIEW

[論文レビュー] Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation

Emily Denton, Mark Díaz|arXiv (Cornell University)|Dec 8, 2021
Mobile Crowdsensing and Crowdsourcing被引用数 24
ひとこと要約

本論文は、機械学習におけるデータセットアノテーションが、アノテータの個々の生活経験および集団的な社会的・文化的背景によって顕著に影響を受けることを主張し、モデルの公平性と社会的影響に悪影響を及ぼす潜在的なバイアスを生じさせると述べる。本論文は、意図的なプール選定、公平なプラットフォーム選択、合意に配慮したデータ集約、包括的な文書化を通じて、データセット開発者がアノテータの主観性を倫理的に扱うためのフレームワークを提案する。

ABSTRACT

Human annotations play a crucial role in machine learning (ML) research and development. However, the ethical considerations around the processes and decisions that go into building ML datasets has not received nearly enough attention. In this paper, we survey an array of literature that provides insights into ethical considerations around crowdsourced dataset annotation. We synthesize these insights, and lay out the challenges in this space along two layers: (1) who the annotator is, and how the annotators' lived experiences can impact their annotations, and (2) the relationship between the annotators and the crowdsourcing platforms and what that relationship affords them. Finally, we put forth a concrete set of recommendations and considerations for dataset developers at various stages of the ML data pipeline: task formulation, selection of annotators, platform and infrastructure choices, dataset analysis and evaluation, and dataset documentation and release.

研究の動機と目的

  • クラウドソーシングによるデータセットアノテーションにおける倫理的見過ごし、特にアノテータのアイデンティティや生活経験への無関心を是正すること。
  • アノテータの主観性および社会的・文化的な偏りが、機械学習データセットにバイアスを埋め込む仕組みを浮き彫りにすること。
  • データパイプラインの各段階で、データセット開発者が責任を果たし、代表的なデータセットを構築するための実行可能な提言を提供すること。
  • 単一の「真の事実」の神話に挑戦し、合意の欠如を多様な視点の信号として強調すること。
  • データセットの解釈可能性と公平性を高めるために、アノテータの人口統計的属性および個々のアノテーションを透明に文書化することを提唱すること。

提案手法

  • アイデンティティ、パワーダイナミクス、労働条件に焦点を当てた、クラウドソーシングによるデータアノテーションにおける倫理的課題に関する先行研究を調査する。
  • 社会的アイデンティティ、生活経験、および労働条件によって形作られるアノテータの主観性が、ラベル付け結果にどのように影響するかを分析する。
  • タスク定義、アノテータ選定、プラットフォーム選択、データ集約、文書化の各段階を含む、パイプラインベースのデータセット開発フレームワークを提案する。
  • 個々のアノテータの回答と合意に配慮した指標をデータセットに含めることで、ニュアンスを保ち、マイノリティの視点を抹消しないようにすることを提言する。
  • アノテータのフィードバックメカニズムと公平な報酬基準に基づいたプラットフォーム選定を推奨し、タスク品質と作業者の自律性を向上させること。
  • アノテータの人口統計的属性と設計意思決定を含む標準化されたデータセット文書化フレームワークの採用を促進し、透明性と責任の確保を図ること。

実験結果

リサーチクエスチョン

  • RQ1主観的なタスク(例:嫌がらせの検出やセンチメント分析)において、個々のアノテータの生活経験や文化的背景は、そのラベル付け意思決定にどのように影響を与えるか?
  • RQ2クラウドソーシングシステムにおける権力の不均衡とプラットフォーム設計は、データセットアノテーションの質と代表性にどのような影響を及えるか?
  • RQ3複数のアノテーションを単一の「真の事実」として集約することは、どの程度問題であり、合意の欠如を意味のある信号として保存できるか?
  • RQ4データセット開発者が、下流のAIシステムに最も影響を受けるコミュニティの代表を確保するために、どのように倫理的にアノテータプールを選定できるか?
  • RQ5アノテータのアイデンティティと労働条件に関して、透明性と責任を高めるためにどのような文書化手法が有効か?

主な発見

  • アノテータの主観性は欠陥ではなく、主観的タスクの特徴である。アノテータ間の合意の欠如は、しばしば誤りではなく、文脈依存的な妥当な解釈を示している。
  • クラウドソーシングプラットフォームはしばしば作業者を交換可能なものとして扱うが、これは、とりわけマイノリティのグループからの生活経験や専門的知識の価値を曇らせる。
  • アノテータプールにおける人口統計的偏り(例:米国における女性の過剰代表)は、意図的な選定と公平な報酬がなければ、構造的不平等を助長する。
  • 過半数による投票によるアノテーション集約は、マイノリティの視点を損なうリスクをはらみ、合意の欠如が文化的・文脈的差異を反映している場合に特にニュアンスを失う。
  • 個々のアノテータの回答と合意の指標をデータセットに含めることで、モデルの解釈性が向上し、未検討のバイアスが埋め込まれるリスクが低下する。
  • アノテータの人口統計的属性とプラットフォーム方針を含む包括的な文書化は、AI開発における責任あるデータセット公開の根幹を成す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。