Skip to main content
QUICK REVIEW

[論文レビュー] Data and its (dis)contents: A survey of dataset development and use in machine learning research

Amandalynne Paullada, Inioluwa Deborah Raji|arXiv (Cornell University)|Dec 9, 2020
Ethics and Social Impacts of AI参考文献 173被引用数 461
ひとこと要約

この論文は、機械学習研究におけるデータセットの役割を批判的に検討し、現在のデータ収集、アノテーション、ベンチマーク手法がバイアス、誤った相関関係、倫理的問題を根強く残していると主張する。本稿は、スケールやパフォーマンス指標よりも代表的で、透明性があり、データ対象者を尊重する、より注意深く文脈を意識した、倫理的配慮のあるデータセット開発へのパラダイムシフトを提唱する。

ABSTRACT

Datasets have played a foundational role in the advancement of machine learning research. They form the basis for the models we design and deploy, as well as our primary medium for benchmarking and evaluation. Furthermore, the ways in which we collect, construct and share these datasets inform the kinds of problems the field pursues and the methods explored in algorithm development. However, recent work from a breadth of perspectives has revealed the limitations of predominant practices in dataset collection and use. In this paper, we survey the many concerns raised about the way we collect and use data in machine learning and advocate that a more cautious and thorough understanding of data is necessary to address several of the practical and ethical issues of the field.

研究の動機と目的

  • 機械学習研究の妥当性と倫理的側面を損なうデータセット設計および利用におけるシステム的欠陥を特定・分析すること。
  • 特にウェブスクリーピングとクラウドワーキングを含む現在のデータ収集手法が、人的労働、バイアス、文脈的依存性を隠ぺいしている点を浮き彫りにすること。
  • 研究進展の駆動要因としてのベンチマークデータセットへの過剰な依存を批判し、実世界の関連性や公平性よりもパフォーマンスを重視する傾向が、科学的進歩と倫理的導入に悪影響を及げる点を指摘すること。
  • 文脈に根ざし、倫理的に適切に調達され、透明性のあるドキュメンテーションがなされたデータセットを重視する、ML研究文化の転換を提唱すること。
  • 公平で責任あるAI開発を支援するため、ベンチマークを超えた包括的な評価フレームワークの必要性を強調すること。

提案手法

  • NLPおよびコンピュータビジョン分野におけるデータセット関連問題に関する最近の文献を包括的にサーベイすること。
  • 批判を4つのテーマに分類する:代表的バイアス、誤った相関関係、不適切なタスク定式化、不十分なドキュメンテーションおよびアノテーション手法。
  • 問題を含むデータセットの事例研究(例:ImageNet、OntoNotes、毒性データセット)を分析し、データ構築におけるシステム的問題を提示すること。
  • 敵対的データセットやデータ拡張といった技術的解決策を評価しつつ、それらが根本的要因を是正できない点を批判すること。
  • ML研究におけるデータ再利用、法的リスク、データ管理実務に関する、広範な制度的・文化的批判をサーベイすること。
  • スケールやランクイングパフォーマンスよりも、文脈、同意、多様な分野との協働を重視する研究文化の構築を提唱すること。

実験結果

リサーチクエスチョン

  • RQ1機械学習データセットにおける代表的バイアスは、どのように社会的不平等を反映・強化しているか?
  • RQ2ベンチマークデータセットに見られる誤った相関関係は、モデルが意味的な能力を学習せずにタスクを「ねじ曲げる」のをどの程度可能にしているか?
  • RQ3現在のベンチマーク中心の研究文化が、科学的進歩と倫理的導入においてなぜ問題となるのか?
  • RQ4同意なしに大規模なウェブスクリーピングとデータ再利用がもたらす倫理的・法的リスクは何か?
  • RQ5文脈、透明性、データ対象者の尊重を最優先に据えるために、データセット開発はどのように改革されるべきか?

主な発見

  • ImageNet や OntoNotes といった代表的データセットは、肌の色が濃い人々や女性の代名詞を含む、マイノリティの社会的・文化的グループの顕著な不代表的性を示している。
  • 多くのデータセットは、視覚的・言語的データにおける職業と性別の性別化された関連性といった、有害なステレオタイプを内蔵しており、これがバイアスの強いモデル行動を引き起こしている。
  • ImageNet データセットには、人種差別的スラングや侮辱的用語がラベル付けされた数百万枚の画像が含まれており、この問題が指摘されたことで一部のデータが削除された。
  • 多くのベンチマークデータセットは、誤った相関関係(例:'gay' を含むテキストが毒性とラベル付けされる)により、ゲーム可能となっており、モデルの汎化能力に関する主張を揺るがしている。
  • 現在のデータ収集手法は、しばしばデータ作成における人的労働、文脈、主観性を隠ぺいしており、透明性と説明責任の欠如を招いている。
  • 敵対的データ作成やフィルタリングといった、後からデータを修正する試みは、代表的性、文脈、倫理的調達の根本的問題を解決できない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。