QUICK REVIEW

[論文レビュー] Between Subjectivity and Imposition: Power Dynamics in Data Annotation for Computer Vision

Milagros Miceli, Martin Schuessler|arXiv (Cornell University)|Jul 29, 2020

Ethics and Social Impacts of AI参考文献 51被引用数 26

ひとこと要約

本論文は、階層的構造が意味の形成に与える影響を踏まえて、コンピュータビジョンのデータアノテーションにおけるパワーダイナミクスを調査する。構築主義的グランド理論を用いて、ラベルが単なる主観的判断ではなく、クライアントや市場ニーズによって縦割りに強制され、中立的であるかのように自然化されていることが明らかになった。これは責任の所在を曇らせ、AIデータ作成における構造的格差を露呈する。

ABSTRACT

The interpretation of data is fundamental to machine learning. This paper investigates practices of image data annotation as performed in industrial contexts. We define data annotation as a sense-making practice, where annotators assign meaning to data through the use of labels. Previous human-centered investigations have largely focused on annotators subjectivity as a major cause for biased labels. We propose a wider view on this issue: guided by constructivist grounded theory, we conducted several weeks of fieldwork at two annotation companies. We analyzed which structures, power relations, and naturalized impositions shape the interpretation of data. Our results show that the work of annotators is profoundly informed by the interests, values, and priorities of other actors above their station. Arbitrary classifications are vertically imposed on annotators, and through them, on data. This imposition is largely naturalized. Assigning meaning to data is often presented as a technical matter. This paper shows it is, in fact, an exercise of power with multiple implications for individuals and society.

研究の動機と目的

産業的現場におけるデータアノテーションの実践が、どのようにパワーハイアラルキーに影響を受けるかを検討すること。
上位からの分類の強制を暴露することで、データラベリングにおける中立性の神話に疑問を呈すること。
クライアント、マネージャー、アノテーター間の階層的関係が、ラベル作成にどのように影響を与えるかを調査すること。
データセットにおける倫理的・技術的問題が、単なる個人の主観性ではなく、構造的パワーギャップに起因することを主張すること。
データ作業における自己認識的でパワーアウェアなドキュメンテーションを提唱し、責任と透明性を高めること。

提案手法

2つのデータアノテーション会社で数週間のエトノグラフィックフィールドワークを実施した。
アノテーター、マネージャー、コンピュータビジョン研究者を対象に24件の半構造化インタビューを実施した。
構築主義的グランド理論を用いてデータを分析し、研究者の自己認識と文脈に即した解釈を重視した。
ブルデューの「象徴的パワー」の概念を用いて、ラベリングプロセスにおける意味の強制と自然化を分析した。
クライアントの要請がマネジメント経由でアノテーターに至るまでのアノテーション指針の流れを追跡し、標準化とコントロールのポイントを同定した。
実際のアノテーションプロジェクトを分析することで、ラベリング意思決定に及ぼす規範的・階層的影響を明らかにした。

実験結果

リサーチクエスチョン

RQ1産業的文脈におけるデータアノテーターは、どのように画像データを意味づけているか？
RQ2データアノテーションにおける意味づけプロセスを形作る構造、基準、パワーリレーションシップは何か？
RQ3データポイントの分類を誰が決定し、アノテーションパイプラインのどの段階で決定されているか？
RQ4クライアントおよび市場ニーズは、どのようにラベリングガイドラインに翻訳され、ラベルの一貫性や倫理的側面にどのような影響を与えるか？
RQ5強制された分類はどのように自然化され、AIシステムにおける責任にどのような影響を及えるか？

主な発見

データアノテーションは中立的な技術的作業ではなく、階層的コントロールによって形作られたパワーライドな意味づけプロセスである。
ラベリングガイドラインは、倫理的・認識論的配慮よりも、主にクライアントの要請と市場最適化によって駆動されている。
アノテーターは上位から強制された分類を内面化し、客観的で避けがたいものであると認識している。
ラベルの標準化は、解釈的深さや倫理的感受性よりも、コスト効率と出力量の最大化を優先している。
複数の監視・管理レイヤーが責任を希釈させ、被害の原因を特定の当事者にたどり着けにくくしている。
強制された分類の自然化は、データセットに埋め込まれた政治的・経済的要因を曇らせ、責任と透明性を損なっている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。