Skip to main content
QUICK REVIEW

[论文解读] A Survey on Data Collection for Machine Learning: a Big Data -- AI Integration Perspective

Yuji Roh, Geon Heo|arXiv (Cornell University)|Nov 8, 2018
Data Stream Mining Techniques参考文献 164被引用 150
一句话总结

本综述从数据管理的角度回顾面向机器学习的数据收集,涵盖数据获取、标注,以及改进现有数据或模型,同时讨论挑战与实践指南。

ABSTRACT

Data collection is a major bottleneck in machine learning and an active research topic in multiple communities. There are largely two reasons data collection has recently become a critical issue. First, as machine learning is becoming more widely-used, we are seeing new applications that do not necessarily have enough labeled data. Second, unlike traditional machine learning, deep learning techniques automatically generate features, which saves feature engineering costs, but in return may require larger amounts of labeled data. Interestingly, recent research in data collection comes not only from the machine learning, natural language, and computer vision communities, but also from the data management community due to the importance of handling large amounts of data. In this survey, we perform a comprehensive study of data collection from a data management point of view. Data collection largely consists of data acquisition, data labeling, and improvement of existing data or models. We provide a research landscape of these operations, provide guidelines on which technique to use when, and identify interesting research challenges. The integration of machine learning and data management for data collection is part of a larger trend of Big data and Artificial Intelligence (AI) integration and opens many opportunities for new research.

研究动机与目标

  • 通过强调数据收集是ML的瓶颈,以及深度学习和新应用对其日益增长的重要性来推动本研究。
  • 结合 ML 与数据管理文献,提供数据收集技术的广泛全景。
  • 对与 ML 相关的数据获取、标注和数据改进方法进行分类与总结。
  • 提供在何时应用特定数据收集技术的指南,并识别尚待解决的研究挑战。

提出的方法

  • 将数据获取技术分为数据发现、数据增强和数据生成。
  • 总结数据标注方法,包括利用现有标签、众包和弱监督。
  • 评审用于提升数据或模型性能的数据质量改进与清洗技术。
  • 给出一套决策流程图,帮助在 ML 任务中选择数据收集技术。
  • 通过众包、GANs 及策略驱动变换讨论合成数据生成。
  • 总结与 ML 流水线相关的数据集成与实体增强方法。

实验结果

研究问题

  • RQ1在跨 ML 子领域(如 NLP、CV)中,哪些数据获取、标注和数据改进技术与机器学习最相关?
  • RQ2如何使用数据管理工具与范式来扩展机器学习应用的数据收集?
  • RQ3在不同数据类型和应用需求下,哪些指南可以帮助从业者在数据收集技术之间做出选择?
  • RQ4从大数据与 AI 融合的角度看,数据收集的主要未解挑战是什么?

主要发现

  • 数据获取技术涵盖数据发现、增强和生成,每种都服务于数据集可用性和质量的不同阶段。
  • 数据标注的发展超越了人工标注,转向众包和弱监督以扩展标注任务。
  • 数据质量改进与数据集成可显著影响模型性能与训练效率。
  • 当真实数据稀缺或获取成本高时,合成数据生成和策略引导的变换提供灵活、可扩展的选项。
  • 统一的决策流程通过先评估数据可用性,再选择获取、标注或改进路径来帮助从业者选择数据收集技术。
  • 本综述强调将数据管理实践与 ML 需求整合,作为更广泛的大数据–AI 运动的一部分。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。