[论文解读] The Effects of Data Quality on Machine Learning Performance on Tabular Data
用实证分析的方法在三种污染情景下,六个数据质量维度如何影响十五种 ML 算法在分类、回归和聚类任务中的性能。
Modern artificial intelligence (AI) applications require large quantities of training and test data. This need creates critical challenges not only concerning the availability of such data, but also regarding its quality. For example, incomplete, erroneous, or inappropriate training data can lead to unreliable models that produce ultimately poor decisions. Trustworthy AI applications require high-quality training and test data along many quality dimensions, such as accuracy, completeness, and consistency. We explore empirically the relationship between six data quality dimensions and the performance of 19 popular machine learning algorithms covering the tasks of classification, regression, and clustering, with the goal of explaining their performance in terms of data quality. Our experiments distinguish three scenarios based on the AI pipeline steps that were fed with polluted data: polluted training data, test data, or both. We conclude the paper with an extensive discussion of our observations.
研究动机与目标
- 通过研究数据质量如何限制 ML 性能来激发以数据为中心的 AI。
- 定义六个数据质量维度并提供系统化的污染方法。
- 在污染数据下评估十五种 ML 算法在分类、回归和聚类任务中的表现。
- 比较训练数据、测试数据或两者质量降低的情景。
- 为数据科学家提供可操作的见解并指明未来研究方向。
提出的方法
- 定义六个数据质量维度:一致表示、完整性、特征准确性、目标准确性、唯一性,以及目标类别平衡。
- 开发参数化污染器,对每个维度注入受控的数据质量下降。
- 将污染应用于训练数据、测试数据或两者,以创建三个实验情景。
- 在分类、回归和聚类任务中评估十五种 ML 算法。
- 使用固定随机种子的合成数据和真实世界数据集以实现可重复性。
- 报告并讨论数据质量与模型性能之间的观察关系。
实验结果
研究问题
- RQ1六个数据质量维度如何影响分类、回归和聚类任务中的 ML 性能?
- RQ2在不同污染情景下,训练数据与服务数据的质量如何影响模型结果?
- RQ3关于在 ML 流程中进行数据质量管理,能为数据科学家得出哪些实际经验?
主要发现
- 训练数据和测试数据的质量对三类任务的 ML 性能都具有显著影响。
- 不同的 ML 算法对相同的数据质量下降反应不同,体现出任务和模型相关的敏感性。
- 在六个维度上的系统性污染揭示了性能下降的明显模式,某些维度(如目标准确性)往往比其他维度更具影响力。
- 三种污染情景(污染的训练数据、污染的测试数据,或者两者都污染)对模型的准确性和鲁棒性产生不同的影响。
- 该研究提供了实用指南,并就通过增加更多质量维度和数据集来扩展数据为中心的 AI 研究提出了方向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。