Skip to main content
QUICK REVIEW

[論文レビュー] DataPerf: Benchmarks for Data-Centric AI Development

Mark Mazumder, Colby Banbury|arXiv (Cornell University)|Jul 20, 2022
Machine Learning and Data Classification被引用数 51
ひとこと要約

DataPerf は、複数モダリティにわたるデータ中心AIとデータ中心アルゴリズムを評価するコミュニティ主導のベンチマークスイートをオンラインプラットフォーム上で提供し、拡張可能なベンチマークと長期的な保守を実現します。

ABSTRACT

Machine learning research has long focused on models rather than datasets, and prominent datasets are used for common ML tasks without regard to the breadth, difficulty, and faithfulness of the underlying problems. Neglecting the fundamental importance of data has given rise to inaccuracy, bias, and fragility in real-world applications, and research is hindered by saturation across existing dataset benchmarks. In response, we present DataPerf, a community-led benchmark suite for evaluating ML datasets and data-centric algorithms. We aim to foster innovation in data-centric AI through competition, comparability, and reproducibility. We enable the ML community to iterate on datasets, instead of just architectures, and we provide an open, online platform with multiple rounds of challenges to support this iterative development. The first iteration of DataPerf contains five benchmarks covering a wide spectrum of data-centric techniques, tasks, and modalities in vision, speech, acquisition, debugging, and diffusion prompting, and we support hosting new contributed benchmarks from the community. The benchmarks, online evaluation platform, and baseline implementations are open source, and the MLCommons Association will maintain DataPerf to ensure long-term benefits to academia and industry.

研究の動機と目的

  • MLベンチマークをモデルからデータ品質とデータ中心の開発実践へシフトする。
  • データ中心のパイプラインとデータセットを評価するための、スケーラブルでオープンなプラットフォームを提供する。
  • 作業部会と長期の統治を通じて、コミュニティの貢献を促進する。
  • モダリティ横断の実世界のユースケースを通じて、実用的なデータ中心タスクを示す。

提案手法

  • データ中心のベンチマークをホストするためにMLCommonsと統合されたオンラインプラットフォーム(Dynabench)を開発する。
  • プラットフォームを拡張し、トレーニングサブセット、コンテナ化されたシステムなど、さまざまな提出アーティファクトを受け付ける。
  • 公正なデータ中心の比較のため、固定モデル設定で5つの初期ベンチマーク(音声データ選択、視覚データ選択、デバッグ、データ取得、対向的Nibbler)を定義する。
  • 再現性と進捗追跡を可能にするベースライン実装と公開リーダーボードを提供する。
  • 継続的なベンチマーク開発と持続可能性のために、MLCommonsの下で専任ワーキンググループを通じてDataPerfを維持する。

実験結果

リサーチクエスチョン

  • RQ1モデルの変更とは独立してデータ中心の改善を評価するようなベンチマークをどのように設計できるか。
  • RQ2固定モデルアーキテクチャと予算内で、最も大きな利得を生むデータ中心手法は何か。
  • RQ3オンラインプラットフォームはスケール可能で再現性のある評価を提供して、さまざまなデータ中心の課題をどうサポートできるか。
  • RQ4モダリティ横断でデータ中心AIの利得を最もよく示す実世界のユースケースは何か。
  • RQ5データ取得、クレンジング、選択戦略は有効性とコストの点でどのように比較されるか。

主な発見

  • DataPerf は拡張可能なオープンソースプラットフォーム(Dynabench)と、持続可能なデータ中心ベンチマークのためのMLCommonsによる長期的なガバナンスモデルを提供する。
  • 初期スイートは、音声および視覚データ選択、デバッグ、データ取得、対向的プロンプティングといった多様なデータ中心タスクを網羅し、データ中心開発の広がりをデモンストレーションする。
  • ベースライン結果とデモは、データ市場とタスク間の異質性を示し、データ中心戦略設計の重要性を強調する。
  • オフライン評価スクリプトとコンテナ化された提出アーティファクトは、オンラインの計算負荷を軽減し、参加者のアクセス性を向上させる。
  • 専任の DataPerf ワーキンググループは、継続的なベンチマーク開発、コミュニティの貢献、プラットフォーム運用を調整し、学術界と産業界で長期的な影響を目指す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。