[論文レビュー] Building Better Datasets: Seven Recommendations for Responsible Design from Dataset Creators
本論文は18組のデータセット作成者からの洞察を提示し、データ品質、多様性、文書化、ガバナンスに焦点を当てた責任あるデータセット設計を改善するための7つの実用的な推奨を示します。
The increasing demand for high-quality datasets in machine learning has raised concerns about the ethical and responsible creation of these datasets. Dataset creators play a crucial role in developing responsible practices, yet their perspectives and expertise have not yet been highlighted in the current literature. In this paper, we bridge this gap by presenting insights from a qualitative study that included interviewing 18 leading dataset creators about the current state of the field. We shed light on the challenges and considerations faced by dataset creators, and our findings underscore the potential for deeper collaboration, knowledge sharing, and collective development. Through a close analysis of their perspectives, we share seven central recommendations for improving responsible dataset creation, including issues such as data quality, documentation, privacy and consent, and how to mitigate potential harms from unintended use cases. By fostering critical reflection and sharing the experiences of dataset creators, we aim to promote responsible dataset creation practices and develop a nuanced understanding of this crucial but often undervalued aspect of machine learning research.
研究の動機と目的
- 責任あるML実践におけるデータセット作成者の役割と視点を強調する。
- 多様なデータセットと組織的文脈に共通する課題を特定する。
- データ品質、多様性、同意、使用制限を改善するための実用的な推奨を提案する。
- MLコミュニティ内でデータ作業の協力と専門性の向上を促進する。
提案手法
- 2022年7月〜9月に18名のデータセット作成者を対象としてオープンエンドの質的インタビューを実施した。
- 潜在参加者47名を募集;うち18名が参加(回答率38%)。
- データセットの起源、使用、保守、陳腐化を探るため半構造化インタビューを用いた。
- インタビューを文字起こし、推奨を抽出するために反復的な主題別コード化を実施した。
- 参加者の匿名性または身元特定の選択を保証;研究はIRBにより承認された。
実験結果
リサーチクエスチョン
- RQ1領域を超えたデータセット作成者が直面する課題とベストプラクティスは何か?
- RQ2作成者は責任あるデータセット作成を改善するために具体的にどのような推奨を提示しているか?
- RQ3データセットコミュニティはより良い協力と専門職化へどう進むべきか?
- RQ4文書化、多様性、検証、同意は責任あるデータセット設計においてどのような役割を果たすか?
- RQ5データセットはどのように伝達され、使用され、時間とともに廃止または更新されるべきか?
主な発見
- インタビューから責任あるデータセット作成に向けた7つの中心的推奨が浮かび上がった。
- 多様性と丹念な監査が偏りや予期せぬ被害を緩和するために重要である。
- 高品質なデータは、慎重な検証、手動検査、キュレーションを要し、トレードオフを認識している必要がある。
- 早期かつ反復的な開発と失敗からの学習が不可欠である。
- オープンな文書化と制限の明確な伝達は再現性と再利用を支援する。
- データセットはユーザー中心で、明確に定義された意図された使用と予期せぬ使用事例の考慮を持つべきである。
- 倫理的配慮、同意、プライバシー、ライセンス、帰属、廃止は継続的な検討を要する未解決の課題である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。