[論文レビュー] Bringing the People Back In: Contesting Benchmark Machine Learning Datasets
本論は、ベンチマークMLデータセットをインフラストラクチャ的アーティファクトとして研究する系譜学的研究プログラムを提案し、データセット構築の歴史・価値・労働を明らかにし、透明性を越えて異議可能性を実現することを目指す。
In response to algorithmic unfairness embedded in sociotechnical systems, significant attention has been focused on the contents of machine learning datasets which have revealed biases towards white, cisgender, male, and Western data subjects. In contrast, comparatively less attention has been paid to the histories, values, and norms embedded in such datasets. In this work, we outline a research program - a genealogy of machine learning data - for investigating how and why these datasets have been created, what and whose values influence the choices of data to collect, the contextual and contingent conditions of their creation. We describe the ways in which benchmark datasets in machine learning operate as infrastructure and pose four research questions for these datasets. This interrogation forces us to "bring the people back in" by aiding us in understanding the labor embedded in dataset construction, and thereby presenting new avenues of contestation for other researchers encountering the data.
研究の動機と目的
- ベンチマークMLデータセットがどのように作成され、データ収集に影響を与える価値が何であるかを研究する系譜学的手法を動機づける。
- データセットを、研究計画、ベンチマーク、産業実践を形づくるインフラストラクチャとして位置づける。
- データ実践を自然化させないため、インフラストラクチャ研究から語彙と分析視点を導入する。
- ベンチマークデータセットを取り巻く動機・歴史・権威・現在の実践を理解するための四部構成の研究プログラムを概説する。
提案手法
- データセット実践の歴史的形成と変容を追跡するためにMichel Foucault’s genealogyを採用する。
- データ作成における隠された労働と文脈要因を明らかにするためにインフラストラクチャ的反転を用いる。
- データセットとベンチマークを、ML研究と産業展開を支えるインフラストラクチャとして扱う。
- データセットの文書化や関連コミュニケーションのテキスト分析を適用して動機と慣習を明らかにする。
- 主要なMLハブにおけるデータ作業実践を研究するために、民族誌的・歴史的・複数現場の調査を提案する。
実験結果
リサーチクエスチョン
- RQ1データセット開発者は、データセットの作成とそれに伴う文書化に関する決定をどのように説明し、動機づけるのか?
- RQ2機械学習におけるベンチマークデータセットの創出の歴史と条件依存性は何か?
- RQ3ベンチマークデータセットはどのように権威を持つようになり、その権威が研究実践と規範をどのように形づくるのか?
- RQ4機械学習におけるデータ収集・キュレーション・アノテーションを構造化する現在の作業実践・規範・日常的手順は何か?
主な発見
- インフラストラクチャ研究から新しい語彙と概念を導入し、データを権力の影響を受けるインフラストラクチャとして位置づけ、異議可能性を促進する。
- 明確な問いと方法を備えた、機械学習データの新しい系譜学を研究プログラムとして概説する。
- データパイプラインを統制するには、データセット作成に関わる歴史的偶発性、力関係、労働を検討する必要があると論じる。
- 反省的分析を支えるため、目的・収集方法・キュレーション・分類を文書化するデータリリース実践を提唱する。
- 公正性の唯一の解決策としてデータ量を超えることを強調し、捕食的インクルージョンとデータ労働の搾取のリスクを指摘する。
- 主要なMLハブの現地・多地点民族誌調査を提案し、現在のデータ実践と規範的日常を明らかにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。