Skip to main content
QUICK REVIEW

[論文レビュー] The Dataset Nutrition Label (2nd Gen): Leveraging Context to Mitigate Harms in Artificial Intelligence

Kasia S. Chmielinski, Sarah Newman|arXiv (Cornell University)|Jan 10, 2022
Nutrition, Genetics, and Disease被引用数 28
ひとこと要約

本論文は Dataset Nutrition Label の第2世代を提案する。これは文脈対応の対話型ツールで、データサイエンティストがデータセットの適合性を評価し、AI における害を軽減するために、情報を Use Cases と Predictions に合わせて調整する。

ABSTRACT

As the production of and reliance on datasets to produce automated decision-making systems (ADS) increases, so does the need for processes for evaluating and interrogating the underlying data. After launching the Dataset Nutrition Label in 2018, the Data Nutrition Project has made significant updates to the design and purpose of the Label, and is launching an updated Label in late 2020, which is previewed in this paper. The new Label includes context-specific Use Cases &Alerts presented through an updated design and user interface targeted towards the data scientist profile. This paper discusses the harm and bias from underlying training data that the Label is intended to mitigate, the current state of the work including new datasets being labeled, new and existing challenges, and further directions of the work, as well as Figures previewing the new label.

研究の動機と目的

  • 自動決定システムにおける害を軽減するため、訓練データを検証する必要性を動機づける。
  • 第2世代 Dataset Nutrition Label の設計、方法論、および構成要素を説明する。
  • 文脈特化の Use Cases と Alerts が、実務者を関連するデータ品質と偏りの考慮事項へ導く様子を示す。
  • 実世界での適用可能性を示すためのプロトタイプと協力者を提示する。

提案手法

  • Overview、Use Cases & Alerts、Dataset Info の3つのペインを備えた新規対話型 GUI を説明する。
  • 選択したシナリオに合わせた Alerts および FYIs をトリガーするために、Use Case と Prediction の選択を有効にする。
  • Datasheets for Datasets および関連フレームワークから派生した Dataset Info ペインを通じて定性的な文書化を提供する。
  • 変更されるデータセットに対するラベル適用性を文脈づけるために、タイムスタンプ付きの Date フィールドを組み込む。
  • 実データセットでプロトタイプをデモンストレーションし、より広範なデータセットに対する将来の自動ラベル生成を計画する。

実験結果

リサーチクエスチョン

  • RQ1データセット栄養ラベルを、Use Case 固有のリスクと緩和要件を反映するように適応させるにはどうすればよいか?
  • RQ2ADS の Use Case に取り組むデータサイエンティストへの指針を改善するデザイン変更は何か?
  • RQ3第2世代のラベルは、第一世代と比較して使いやすさと文脈化をどのように解決しているか?
  • RQ4スケーラブルで自動化されたラベル生成の現実的な課題と将来の方向性は何か?

主な発見

  • 第2世代のラベルは、実務者の特定のUse CaseとPredictionに合わせて情報を調整するUse Cases & Alerts を備えた対話型 GUI を導入する。
  • ラベルは3つのペインを通じて情報を提示し、選択された Use Case に焦点を当てた Alerts と FYIs を統合することで、文脈と使いやすさを強調する。
  • Dataset Info ペインを介した定性的な文書化は、Datasheets for Datasets および関連フレームワークを参照して、出所と収集の詳細を提供する。
  • プロトタイプは、COVID Tracking Project、NYC の立ち退きと住宅データ、黒色腫画像データセット(ISIC 2018/2020)などのデータセットでデモンストレーションされる。
  • 本研究は、データセットの変動、機密データへのアクセス、定性的なコンテンツが定量的なコンテンツより重視される傾向などの課題を特定し、将来の自動ラベル生成と Use Case の比較を可能にする計画を含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。