QUICK REVIEW

[논문 리뷰] DataPerf: Benchmarks for Data-Centric AI Development

Mark Mazumder, Colby Banbury|arXiv (Cornell University)|2022. 07. 20.

Machine Learning and Data Classification인용 수 51

한 줄 요약

DataPerf는 다중 모달리티에 걸쳐 데이터 중심 AI 및 데이터 중심 알고리즘을 평가하기 위한 커뮤니티 주도 벤치마크 모음을 소개하며, 확장 가능한 벤치마크와 장기 유지 관리를 지원하는 온라인 플랫폼에서 호스팅됩니다. 첫 번째 반복은 음성 및 비전 데이터 선택, 데이터 정리, 데이터 수집, 프롬프트닝을 다루며, 오픈 소스 기준선을 제공합니다.

ABSTRACT

Machine learning research has long focused on models rather than datasets, and prominent datasets are used for common ML tasks without regard to the breadth, difficulty, and faithfulness of the underlying problems. Neglecting the fundamental importance of data has given rise to inaccuracy, bias, and fragility in real-world applications, and research is hindered by saturation across existing dataset benchmarks. In response, we present DataPerf, a community-led benchmark suite for evaluating ML datasets and data-centric algorithms. We aim to foster innovation in data-centric AI through competition, comparability, and reproducibility. We enable the ML community to iterate on datasets, instead of just architectures, and we provide an open, online platform with multiple rounds of challenges to support this iterative development. The first iteration of DataPerf contains five benchmarks covering a wide spectrum of data-centric techniques, tasks, and modalities in vision, speech, acquisition, debugging, and diffusion prompting, and we support hosting new contributed benchmarks from the community. The benchmarks, online evaluation platform, and baseline implementations are open source, and the MLCommons Association will maintain DataPerf to ensure long-term benefits to academia and industry.

연구 동기 및 목표

모델에서 데이터 품질과 데이터 중심 개발 관행으로 ML 벤치마킹을 이동시키는 것.
데이터 중심 파이프라인과 데이터 세트를 평가하는 확장 가능하고 개방된 플랫폼을 제공하는 것.
작동 그룹과 장기 관리 체계를 통해 커뮤니티 기여를 촉진하는 것.
다양한 모달리티의 실제 사용 사례를 통해 데이터 중심 작업의 실용성을 입증하는 것.

제안 방법

온라인 플랫폼(Dynabench)을 MLCommons와 통합하여 데이터 중심 벤치마크를 호스팅하는 것.
플랫폼을 확장하여 다양한 제출 산출물(학습 하위집합, 컨테이너화된 시스템 등)을 수용하는 것.
공정한 데이터 중심 비교를 위한 고정된 모델 설정으로 음성 데이터 선택, 비전 데이터 선택, 디버깅, 데이터 수집, 적대적 프롬프트의 5개 초기 벤치마크를 정의하는 것.
재현성과 진행 상황 추적을 가능하게 하는 기준선 구현체와 공개 리더보드를 제공하는 것.
MLCommons 하의 전용 워킹 그룹을 통해 DataPerf를 유지 관리하며 지속적인 벤치마크 개발 및 지속 가능성을 확보하는 것.

실험 결과

연구 질문

RQ1모델 변화와 무관하게 데이터 중심의 개선을 평가하도록 벤치마크를 어떻게 설계할 수 있는가?
RQ2고정된 모델 아키텍처와 예산 내에서 어떤 데이터 중심 기법이 가장 큰 이익을 가져오는가?
RQ3온라인 플랫폼이 대규모의 다양한 데이터 중심 도전에 대한 재현 가능한 평가를 어떻게 지원할 수 있는가?
RQ4모달리티 전반에서 데이터 중심 AI의 이점을 가장 잘 보여주는 실제 사용 사례는 무엇인가?
RQ5데이터 수집, 정리 및 선택 전략의 효과성 및 비용은 어떻게 비교되는가?

주요 결과

DataPerf는 확장 가능한 오픈 소스 플랫폼(Dynabench)과 지속 가능한 데이터 중심 벤치마킹을 위한 MLCommons를 통한 장기 거버넌스 모델을 제공합니다.
초기 벤치마드는 음성 및 비전 데이터 선택, 디버깅, 데이터 수집, 적대적 프롬프트 등 다양한 데이터 중심 작업을 다루며, 모델 최적화를 넘는 데이터 중심 개발의 폭을 보여줍니다.
기준선 결과와 시연은 데이터 마켓플레이스와 작업 간의 이질성을 보여주며, 신중한 데이터 중심 전략 설계의 가치를 강조합니다.
오프라인 평가 스크립트와 컨테이너화된 제출 산출물은 온라인 계산 요구를 줄이고 참가자 접근성을 향상시킵니다.
전담 DataPerf 워킹 그룹은 지속적인 벤치마크 개발, 커뮤니티 기여 및 플랫폼 유지를 조정하며 학계와 산업계에서의 장기적 영향을 목표로 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.