[논문 리뷰] Data-centric Artificial Intelligence: A Survey
데이터 중심 AI를 정의하고 필요성을 정당화한다. 학습 데이터 개발, 추론 데이터 개발, 데이터 유지 관리의 세 가지 목표 분류를 제안하며, 작업과 벤치마크 전반에서 자동화와 인간 협업을 분석하는 포괄적 조사.
Artificial Intelligence (AI) is making a profound impact in almost every domain. A vital enabler of its great success is the availability of abundant and high-quality data for building machine learning models. Recently, the role of data in AI has been significantly magnified, giving rise to the emerging concept of data-centric AI. The attention of researchers and practitioners has gradually shifted from advancing model design to enhancing the quality and quantity of the data. In this survey, we discuss the necessity of data-centric AI, followed by a holistic view of three general data-centric goals (training data development, inference data development, and data maintenance) and the representative methods. We also organize the existing literature from automation and collaboration perspectives, discuss the challenges, and tabulate the benchmarks for various tasks. We believe this is the first comprehensive survey that provides a global view of a spectrum of tasks across various stages of the data lifecycle. We hope it can help the readers efficiently grasp a broad picture of this field, and equip them with the techniques and further research ideas to systematically engineer data for building AI systems. A companion list of data-centric AI resources will be regularly updated on https://github.com/daochenzha/data-centric-AI
연구 동기 및 목표
- 데이터 중심 AI를 정의하고 필요성을 정당화한다.
- 데이터 중심 AI 작업에 대한 목표 지향적인 분류체계를 제시한다.
- 자동화 수준과 인간 참여도에 따라 문헌을 정리한다.
- 데이터 중심 AI의 도전과제, 벤치마크 및 향후 기회를 논의한다.
제안 방법
- 훈련 데이터 개발, 추론 데이터 개발, 데이터 유지 관리로 작업을 구성하는 목표 지향 분류체계를 제안한다.
- 논문을 자동화 대 협업으로 분류하고 자동화 수준 또는 인간 참여 정도를 부여한다.
- 각 하위 목표의 대표적 작업 및 방법을 요약한다(예: 데이터 수집, 라벨링, 준비, 축소, 증강 등).
- 벤치마크를 분석하고 데이터 라이프사이클 단계 전반에 걸친 글로벌 관점을 제공한다.
- 데이터 중심 AI의 향후 방향과 남은 과제를 논의한다.
실험 결과
연구 질문
- RQ1RQ1: AI를 데이터 중심으로 만들기 위한 필수 작업은 무엇인가?
- RQ2RQ2: 데이터를 개발하고 유지하는 데 자동화가 왜 중요한가?
- RQ3RQ3: 어떤 경우에 왜 데이터 중심 AI에서 인간 참여가 필수적인가?
- RQ4RQ4: 데이터 중심 AI의 현재 진행 상황은 무엇인가?
주요 결과
- 데이터 중심 AI의 개념, 작업, 알고리즘, 도전과제 및 벤치마크에 대한 포괄적인 개요를 제공한다.
- 훈련 데이터 개발, 추론 데이터 개발, 데이터 유지 관리에 작업을 맞추는 목표 주도 분류체계를 도입한다.
- 메서드를 인간 참여와 연계하는 자동화 및 협업 지향의 분류를 도입한다.
- 모델 중심 방법과 보완적으로 데이터 중심 접근 방식의 필요성을 논의한다.
- 데이터 수집에서 데이터 유지 관리 및 파이프라인 탐색에 이르는 광범위한 작업을 다룬다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.