[论文解读] Debugging Machine Learning Tasks
本文提出Psi工具,利用Pearl的因果推断框架——特别是充分性概率(PS)得分——自动识别导致机器学习模型误分类的训练数据标注错误。通过将PS计算建模为概率程序,并利用学习算法的灰盒抽象,Psi在无需完整微调的情况下高效定位错误根源,成功在真实数据集中调试出数据故障。
Unlike traditional programs (such as operating systems or word processors) which have large amounts of code, machine learning tasks use programs with relatively small amounts of code (written in machine learning libraries), but voluminous amounts of data. Just like developers of traditional programs debug errors in their code, developers of machine learning tasks debug and fix errors in their data. However, algorithms and tools for debugging and fixing errors in data are less common, when compared to their counterparts for detecting and fixing errors in code. In this paper, we consider classification tasks where errors in training data lead to misclassifications in test points, and propose an automated method to find the root causes of such misclassifications. Our root cause analysis is based on Pearl's theory of causation, and uses Pearl's PS (Probability of Sufficiency) as a scoring metric. Our implementation, Psi, encodes the computation of PS as a probabilistic program, and uses recent work on probabilistic programs and transformations on probabilistic programs (along with gray-box models of machine learning algorithms) to efficiently compute PS. Psi is able to identify root causes of data errors in interesting data sets.
研究动机与目标
- 解决当模型故障源于训练数据错误而非代码或超参数时,机器学习模型调试日益严峻的挑战。
- 开发一种自动化方法,识别测试数据中误分类的根因,特别是精确定位故障的训练样本。
- 应用反事实因果推断——特别是Pearl的充分性概率(PS)——量化单个训练样本对模型错误的因果影响。
- 通过使用灰盒抽象和程序变换,克服为每个反事实标签翻转重新训练模型的高成本问题。
- 实现在真实数据集中训练数据错误普遍存在且难以检测的场景下,实现可扩展、高效的根因分析。
提出的方法
- 将充分性概率(PS)得分的计算建模为概率程序,以支持高效推理与优化。
- 使用机器学习算法的灰盒模型,捕捉训练过程中的关键中间值,实现在标签翻转后快速近似模型行为,而无需完整重训。
- 应用程序变换技术,在多个PS得分计算之间共享计算,分摊不同训练样本重训的计算成本。
- 利用概率编程与推理的最新进展,高效计算在训练标签被改变的反事实世界中的PS得分。
- 在训练过程中进行插桩,收集性能分析数据,以在标签扰动下实现模型的准确重估计。
- 根据PS得分对训练样本进行排序,以识别最可能的测试误分类根因。
实验结果
研究问题
- RQ1在给定测试样本上,哪些训练数据点最可能是模型误分类的根因?
- RQ2如何在不为每个反事实情况完整重训模型的前提下,高效计算每个训练样本的充分性概率(PS)得分?
- RQ3能否使用机器学习算法的灰盒抽象,在标签扰动下足够准确地近似模型行为,以支持根因分析?
- RQ4程序变换与概率编程技术在多训练样本上能多大程度降低PS计算的计算成本?
- RQ5该方法能否扩展到包含数千个训练样本的真实数据集,并检测出导致模型失效的有意义的数据错误?
主要发现
- Psi成功识别出真实数据集中导致模型误分类的错误标注训练样本,展现出实际应用潜力。
- 使用灰盒模型可准确近似标签翻转后的模型行为,显著减少对昂贵完整重训的依赖。
- 通过将PS计算建模为概率程序,Psi实现了高效推理,并可在多个训练样本间复用中间计算结果。
- 借助共享计算与程序变换,该工具显著提升了性能,使基于PS的根因分析具备可扩展性。
- Psi能够在包含数千个样本的数据集中调试数据错误,尽管在扩展至工业级数据规模方面仍存在当前局限,但已展现出实际部署的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。