Skip to main content
QUICK REVIEW

[論文レビュー] Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research

Bernard Koch, Emily Denton|arXiv (Cornell University)|Dec 3, 2021
Ethics and Social Impacts of AI被引用数 57
ひとこと要約

この論文は、2015年から2020年にかけてMLベンチマークデータセットがどのようにタスクコミュニティ間で利用・再利用されているかを分析し、少数のデータセットへの集中の高まりとエリート機関による支配を示しています。

ABSTRACT

Benchmark datasets play a central role in the organization of machine learning research. They coordinate researchers around shared research problems and serve as a measure of progress towards shared goals. Despite the foundational role of benchmarking practices in this field, relatively little attention has been paid to the dynamics of benchmark dataset use and reuse, within or across machine learning subcommunities. In this paper, we dig into these dynamics. We study how dataset usage patterns differ across machine learning subcommunities and across time from 2015-2020. We find increasing concentration on fewer and fewer datasets within task communities, significant adoption of datasets from other tasks, and concentration across the field on datasets that have been introduced by researchers situated within a small number of elite institutions. Our results have implications for scientific evaluation, AI ethics, and equity/access within the field.

研究の動機と目的

  • MLタスクコミュニティが特定のベンチマークデータセットへ集中する様子を調べる。
  • データセットのタスク横断の採用とタスク固有の作成の比較を調査する。
  • 最も支配的なベンチマークデータセットの機関起源を特定し、時間とともにどのように進化するかを明らかにする。

提案手法

  • Papers With Code (PWC)コーパスを用いて、2015–2020年のデータセットの使用と起源を追跡する。
  • タスク内でのデータセット使用の集中度を測るGini係数を計算する。
  • Adoption ProportionとCreation Proportionを定義して、タスク横断のデータセット移動とデータセット作成を分析する。
  • ベータ回帰を用いて、時間とともるGiniを共変量(タスク規模、年齢、カテゴリ)と随机効果とともにモデル化する。
  • 必要に応じて、上位データセット論文を手動で注釈し、起源タスクを特定する。
  • データセット起源論文をMicrosoft Academic Graph (MAG)にリンクして機関分析を行う。

実験結果

リサーチクエスチョン

  • RQ1RQ1: 機械学習のタスクコミュニティは特定のデータセットへどれくらい集中しており、それは時間とともにどう変化しているか?
  • RQ2RQ2: 研究者は他のタスクからデータセットを借用する頻度と、タスク固有のデータセットを作成する頻度はどうか?
  • RQ3RQ3: 最も広く使われているベンチマークデータセットを導入した機関はどこで、それは時間とともにどう変化しているか?

主な発見

  • タスクコミュニティは少数のデータセットへの集中が進行しており、2020年には中央値のGini係数が0.60に達した。
  • タスク内の多くの論文は、自分のタスクのために作成されたデータセットではなく、他のタスクのために元々作成されたデータセットを使用している。
  • 2021年6月時点で、データセット使用の半分以上(50%超)はわずか12機関に起因しており、強い機関集中を示す。
  • 全体のPWCデータセットにおけるデータセット使用のGini集中は近年0.80を超え、機関間およびデータセット間の不平等が拡大している。
  • Image GenerationとFace Recognitionの領域では、最も頻繁に使用されるデータセットの多くが当該タスクのために元々設計されたものではなく、タスク横断の採用と潜在的な整合性の懸念を強調している。
  • NLPタスクは集中トレンドの抑制的な傾向と、CVおよびMethodsタスクと比較した採用/作成パターンの違いを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。