Skip to main content
QUICK REVIEW

[論文レビュー] Lessons from Archives: Strategies for Collecting Sociocultural Data in Machine Learning

Eun Seo Jo, Timnit Gebru|arXiv (Cornell University)|Dec 22, 2019
Ethics and Social Impacts of AI参考文献 26被引用数 105
ひとこと要約

この論文は、アーカイブの実践を社会文化データに取り入れることでMLのデータ収集の専門分野を形成することを提案し、同意、包摂、権力、透明性、倫理とプライバシーに重きを置き、介入的な収集と制度的構造を強調する。

ABSTRACT

A growing body of work shows that many problems in fairness, accountability, transparency, and ethics in machine learning systems are rooted in decisions surrounding the data collection and annotation process. In spite of its fundamental nature however, data collection remains an overlooked part of the machine learning (ML) pipeline. In this paper, we argue that a new specialization should be formed within ML that is focused on methodologies for data collection and annotation: efforts that require institutional frameworks and procedures. Specifically for sociocultural data, parallels can be drawn from archives and libraries. Archives are the longest standing communal effort to gather human information and archive scholars have already developed the language and procedures to address and discuss many challenges pertaining to data collection such as consent, power, inclusivity, transparency, and ethics & privacy. We discuss these five key approaches in document collection practices in archives that can inform data collection in sociocultural ML. By showing data collection practices from another field, we encourage ML research to be more cognizant and systematic in data collection and draw from interdisciplinary expertise.

研究の動機と目的

  • データ収集を社会への影響を伴う基本的なMLの課題として扱う必要性を動機づける。
  • MLのデータ収集とアノテーション実践を改善するために、アーカイブ学と図書館学の教訓を取り入れることを提案する。
  • データ収集を導くための制度的・手続き的構造(ミッションステートメント、倫理コード、ドキュメンテーション)を特定する。
  • 歴史的・表現上の偏りを緩和するための介入的データ収集を提唱する。
  • これらの実践をMLに実装するための具体的な仕組み(コンソーシア、コミュニティ・アーカイブ、参加型アーカイブ)を提案する。

提案手法

  • アーカイブのデータ収集慣行とMLのデータ収集慣行を比較してギャップと機会を特定する。
  • データの歴史的・表象的偏りに対処するための介入的データ収集を主張する。
  • アーカイブの概念(ミッションステートメント、文書化基準、査定プロセス)をMLデータガバナンス(Datasheets for Datasets、透明性の取り組み)へ対応づける。
  • データ収集を民主化しリソースを共有するための組織モデル(データ・コンソーシア、コミュニティ・アーカイブ、参加型アーカイブ)を提案する。
  • MLデータセットとプロセスにおいて同意、包摂、権力、透明性、倫理を実装するための指針を提供する。)

実験結果

リサーチクエスチョン

  • RQ1アーカイブのデータ収集慣行は機械学習におけるデータガバナンスにどのように影響を与えることができるか?
  • RQ2MLデータセットの歴史的・表象的偏りを減らすことができる介入的なデータ収集戦略は何か?
  • RQ3MLプロジェクトはアーカイブに類するミッションステートメント、ドキュメンテーション、倫理監督をどのように実装できるか?
  • RQ4MLにおける責任ある社会文化データ収集のために実現可能な組織構造(コンソーシア、コミュニティ・アーカイブ、行動規範)は何か?

主な発見

  • アーカイブはデータ収集の目標を定義し包摂性を促進するミッションステートメントを用いる。
  • アーカイブは複層的な監督と文書化された査定に依存してデータ収集を規制し、それがMLの透明性を促進する可能性がある。
  • コミュニティ/参加型アーカイブは過小代表されるグループが自分たちの表現とデータアクセスプロトコルを定義できるようにする。
  • データ・コンソーシアと共有フレームワークはMLのデータ収集におけるコスト、労働、公平性の課題に対処できる。
  • 倫理とプライバシーは行動規範と文書化された手続きによって強制され、MLのガバナンスとコンプライアンスのモデルを提供する。
  • 介入的データ収集はMLモデリング前に歴史的・表象的偏りを緩和するのに役立つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。