[論文レビュー] Data-centric Artificial Intelligence: A Survey
データ中心AIを定義し、3つの目標分類法(トレーニングデータ開発、推論データ開発、データ保守)を提案し、タスクとベンチマーク全体における自動化と人間の協働を分析する包括的な調査。
Artificial Intelligence (AI) is making a profound impact in almost every domain. A vital enabler of its great success is the availability of abundant and high-quality data for building machine learning models. Recently, the role of data in AI has been significantly magnified, giving rise to the emerging concept of data-centric AI. The attention of researchers and practitioners has gradually shifted from advancing model design to enhancing the quality and quantity of the data. In this survey, we discuss the necessity of data-centric AI, followed by a holistic view of three general data-centric goals (training data development, inference data development, and data maintenance) and the representative methods. We also organize the existing literature from automation and collaboration perspectives, discuss the challenges, and tabulate the benchmarks for various tasks. We believe this is the first comprehensive survey that provides a global view of a spectrum of tasks across various stages of the data lifecycle. We hope it can help the readers efficiently grasp a broad picture of this field, and equip them with the techniques and further research ideas to systematically engineer data for building AI systems. A companion list of data-centric AI resources will be regularly updated on https://github.com/daochenzha/data-centric-AI
研究の動機と目的
- データ中心AIを定義し、その必要性を正当化する。
- データ中心AIタスクの目標指向分類を提示する。
- 自動化レベルと人間の参加度で文献を整理する。
- データ中心AIの課題、ベンチマーク、今後の機会を論じる。
提案手法
- タスクをトレーニングデータ開発、推論データ開発、データ保守に整理する目標指向の分類法を提案する。
- 自動化と協働で論文を分類し、自動化レベルまたは人間の参加度を割り当てる。
- 各サブゴールの代表的なタスクと手法を要約する(例:データ収集、ラベリング、準備、削減、拡張など)。
- ベンチマークを分析し、データライフサイクルの各段階を横断する全体像を提供する。
- データ中心AIにおける今後の方向性と未解決の課題について論じる。
実験結果
リサーチクエスチョン
- RQ1RQ1: AIをデータ中心にするために必要なタスクは何か?
- RQ2RQ2: データを開発・維持する上で自動化がなぜ重要か?
- RQ3RQ3: どのケースで、なぜデータ中心AIにおいて人間の参加が不可欠か?
- RQ4RQ4: データ中心AIの現在の進展はどの程度か?
主な発見
- データ中心AIの概念、タスク、アルゴリズム、課題、ベンチマークの網羅的な概要を提供する。
- タスクをトレーニングデータ開発、推論データ開発、データ保守に連携させる目標指向の分類法を導入する。
- 方法を人間の関与と自動化・協働志向の分類にマッピングする分類を導入する。
- モデル中心の方法と並ぶデータ中心アプローチの必要性を、補完的なものとして論じる。
- データ収集からデータ保守・パイプライン探索に至る広範なタスクを扱う。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。