[논문 리뷰] A Survey on Data Collection for Machine Learning: a Big Data -- AI Integration Perspective
이 설문은 데이터 관리 관점에서 머신 러닝을 위한 데이터 수집을 검토하며, 데이터 확보, 라벨링, 기존 데이터 또는 모델 개선과 함께 실무의 도전 과제와 가이드라인을 다룬다.
Data collection is a major bottleneck in machine learning and an active research topic in multiple communities. There are largely two reasons data collection has recently become a critical issue. First, as machine learning is becoming more widely-used, we are seeing new applications that do not necessarily have enough labeled data. Second, unlike traditional machine learning, deep learning techniques automatically generate features, which saves feature engineering costs, but in return may require larger amounts of labeled data. Interestingly, recent research in data collection comes not only from the machine learning, natural language, and computer vision communities, but also from the data management community due to the importance of handling large amounts of data. In this survey, we perform a comprehensive study of data collection from a data management point of view. Data collection largely consists of data acquisition, data labeling, and improvement of existing data or models. We provide a research landscape of these operations, provide guidelines on which technique to use when, and identify interesting research challenges. The integration of machine learning and data management for data collection is part of a larger trend of Big data and Artificial Intelligence (AI) integration and opens many opportunities for new research.
연구 동기 및 목표
- 데이터 수집을 ML의 병목 현상으로 강조하고 딥 러닝과 새로운 응용과 함께 그 중요성이 커지는 현상을 부각시켜 연구 의도를 제시한다.
- ML과 데이터 관리 문헌을 연결하여 데이터 수집 기술의 광범위한 풍경을 제공한다.
- ML과 관련된 데이터 확보, 라벨링, 데이터 개선 방법을 분류하고 요약한다.
- 특정 데이터 수집 기법을 언제 적용할지에 대한 가이드라인을 제공하고 열린 연구 과제를 식별한다.
제안 방법
- 데이터 발견, 데이터 증강, 데이터 생성으로 데이터 확보 기술을 분류한다.
- 기존 라벨 활용, 크라우드소싱, 약한 감독을 포함한 데이터 라벨링 접근법을 요약한다.
- 더 나은 데이터나 모델 성능을 위한 데이터 품질 개선 및 정리 기술을 검토한다.
- ML 작업을 위한 데이터 수집 기법 선택을 안내하는 의사 결정 흐름도를 제시한다.
- 크라우드소싱, GANs, 정책 주도 변환을 통한 합성 데이터 생성을 논의한다.
- ML 파이프라인과 관련된 데이터 통합 및 엔터티 보강 접근법을 요약한다.
실험 결과
연구 질문
- RQ1다양한 ML 하위 분야(NLP, CV 등)에서 데이터 확보, 라벨링, 데이터 개선 기법 중 어떤 것이 머신 러닝에 가장 관련성이 큰가?
- RQ2데이터 관리 도구와 패러다임을 활용하여 ML 애플리케이션의 데이터 수집을 어떻게 확장할 수 있는가?
- RQ3다른 데이터 유형 및 응용 필요에 따라 실무자가 데이터 수집 기법 중 어떤 것을 선택하는 데 도움이 되는 가이드라인은 무엇인가?
- RQ4빅 데이터 및 AI 통합 관점에서 ML의 데이터 수집에 관한 주요 열린 도전 과제는 무엇인가?
주요 결과
- 데이터 확보 기법은 데이터 발견, 증강, 생성으로 구성되며, 각각 데이터셋의 가용성 및 품질의 서로 다른 단계에 서비스를 제공한다.
- 데이터 라벨링은 수작업 라벨링에서 벗어나 크라우드소싱과 약한 감독으로 확장 라벨링 작업을 가능하게 한다.
- 데이터 품질 개선 및 데이터 통합은 모델 성능과 학습 효율에 상당한 영향을 미칠 수 있다.
- 합성 데이터 생성 및 정책 주도 변환은 실제 데이터가 부족하거나 얻기 비용이 들 때 융통성 있고 확장 가능한 옵션을 제공한다.
- 통합된 의사 결정 흐름은 실무자가 먼저 데이터 가용성을 평가한 다음 확보, 라벨링 또는 개선 경로를 선택하도록 돕는다.
- 이 설문은 데이터 관리 관행과 ML 필요의 통합을 빅 데이터-AI 움직임의 일환으로 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.