[論文レビュー] Towards Accountability for Machine Learning Datasets: Practices from Software Engineering and Infrastructure
本論文は ML データセットをインフラストラクチャ的なアーティファクトと見なし、透明性・説明責任・責任あるデータセット開発を確保するため、ソフトウェア工学に触発したライフサイクルベースの厳格なドキュメンテーション枠組みを提案する。
Rising concern for the societal implications of artificial intelligence systems has inspired demands for greater transparency and accountability. However the datasets which empower machine learning are often used, shared and re-used with little visibility into the processes of deliberation which led to their creation. Which stakeholder groups had their perspectives included when the dataset was conceived? Which domain experts were consulted regarding how to model subgroups and other phenomena? How were questions of representational biases measured and addressed? Who labeled the data? In this paper, we introduce a rigorous framework for dataset development transparency which supports decision-making and accountability. The framework uses the cyclical, infrastructural and engineering nature of dataset development to draw on best practices from the software development lifecycle. Each stage of the data development lifecycle yields a set of documents that facilitate improved communication and decision-making, as well as drawing attention the value and necessity of careful data work. The proposed framework is intended to contribute to closing the accountability gap in artificial intelligence systems, by making visible the often overlooked work that goes into dataset creation.
研究の動機と目的
- ML データセットは可視性と説明責任を要する技術的なインフラストラクチャとして機能することを主張する。
- データセット開発にソフトウェア工学のライフサイクル実践を採用することを提唱する。
- 監査やレビューを可能にする特定のアーティファクト種別を備えた構造化ドキュメンテーションモデルを提案する。
- データセット作業の政治的・技術的側面と非線形のライフサイクルを強調する。
提案手法
- データセットをインフラストラクチャおよびエンジニアリングアーティファクトとして位置づけ、説明責任の必要性を正当化する。
- データセット開発段階をソフトウェア似のライフサイクル(要求分析、設計、実装、テスト、保守)に対応づける。
- 各段階でトレーサビリティと説明責任を促進する文書タイプを導入する(Requirements Analysis Documents、Dataset Design Documents、Implementation Diaries、Testing Reports、Maintenance Plans)。
- 監査、多様な監督、および事後分析などのガバナンス概念を提案し、説明責任のギャップに対処する。
実験結果
リサーチクエスチョン
- RQ1データセット開発の事前・途中・事後において意味のある説明責任を可能にするには、どの情報を記録すべきか。
- RQ2ソフトウェア工学の実践をどのように適応させて、ML データセットの可視性・ ownership・監査性を向上させられるか。
- RQ3データセット開発ライフサイクル全体で必要な主要なドキュメンテーションアーティファクトと所有権の役割は何か。
- RQ4データセットをインフラストラクチャとして捉えるという概念は、ML における説明責任とガバナンスにどう影響するか。
主な発見
- データセットは ML システムを可能にするインフラストラクチャとして最良に捉えられ、したがって計画的で慎重な開発とドキュメンテーションが必要である。
- 明示的な所有権とドキュメンテーションを伴う非線形の反復的データセット開発ライフサイクルは説明責任のギャップを減らす。
- 各ライフサイクル段階(requirements、design、implementation、testing、maintenance)での構造化されたドキュメントのセットはトレーサビリティと説明責任を支える。
- データの陳腐化、エラー、変化する文脈に対処するためには、監査、レビュー、および継続的な保守計画が不可欠である。
- ドキュメンテーションは仮定、トレードオフ、利害関係者の協議を明示的に反映し、バイアスや予期せぬ害を抑制するべきである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。