Skip to main content
QUICK REVIEW

[论文解读] Learning from Binary Labels with Instance-Dependent Corruption

Aditya Krishna Menon, Brendan van Rooyen|arXiv (Cornell University)|May 3, 2016
Machine Learning and Data Classification被引用 5
一句话总结

本文研究了在实例相关和标签相关标签噪声下的二分类问题,证明了在噪声分布上的一致学习可确保在干净分布上的一致性。对于此类噪声的一个广泛类别,本文进一步表明,受试者工作特征曲线下面积(AUC)的一致性得以保留;当真实类别概率函数属于广义线性模型族时,Isotron 算法能够高效且可证明地从污染数据中学习。

ABSTRACT

Suppose we have a sample of instances paired with binary labels corrupted by arbitrary instance- and label-dependent noise. With sufficiently many such samples, can we optimally classify and rank instances with respect to the noise-free distribution? We provide a theoretical analysis of this question, with three main contributions. First, we prove that for instance-dependent noise, any algorithm that is consistent for classification on the noisy distribution is also consistent on the clean distribution. Second, we prove that for a broad class of instance- and label-dependent noise, a similar consistency result holds for the area under the ROC curve. Third, for the latter noise model, when the noise-free class-probability function belongs to the generalised linear model family, we show that the Isotron can efficiently and provably learn from the corrupted sample

研究动机与目标

  • 确定在具有实例相关和标签相关污染的噪声二分类数据集上的一致学习,是否仍能在底层干净分布上实现最优性能。
  • 研究在相同噪声模型下,受试者工作特征曲线下面积(AUC)的一致性是否得以保留。
  • 识别在真实类别概率函数属于广义线性模型(GLM)族时,从污染数据中实现高效且可证明学习的条件。
  • 在实例相关标签噪声背景下,为 Isotron 算法建立理论保证。

提出的方法

  • 证明任何在噪声分布上一致的分类算法,在实例相关噪声下也对干净分布一致。
  • 在实例相关和标签相关噪声模型的广泛类别下,建立受试者工作特征曲线下面积(AUC)的一致性结果。
  • 在真实类别概率函数属于广义线性模型族的假设下,分析 Isotron 算法。
  • 通过理论分析表明,当噪声模型满足某些正则性条件时,Isotron 可可证明地从污染数据中学习真实函数。
  • 利用噪声模型的结构,建立干净分布与噪声分布之间的联系,从而实现一致性保证。
  • 应用统计学习理论与经验过程理论的结果,推导出在污染数据设置下的泛化界。

实验结果

研究问题

  • RQ1在具有实例相关和标签相关污染的噪声分布上的一致分类,是否仍能在干净分布上实现一致分类?
  • RQ2在实例相关和标签相关噪声下,受试者工作特征曲线下面积(AUC)的一致性是否能从噪声分布传递到干净分布?
  • RQ3当真实函数属于广义线性模型族时,Isotron 算法在何种条件下可可证明地学习真实类别概率函数?
  • RQ4实例相关噪声模型的结构如何影响从污染标签中学习的可行性?
  • RQ5当噪声依赖于输入和真实标签时,针对污染二值标签学习的理论保证有哪些?

主要发现

  • 任何在噪声分布上一致的分类算法,在实例相关标签噪声下也对干净分布一致。
  • 对于实例相关和标签相关噪声模型的一个广泛类别,受试者工作特征曲线下面积(AUC)的一致性从噪声分布到干净分布得以保留。
  • 当真实类别概率函数属于广义线性模型族时,Isotron 算法能够高效且可证明地从污染样本中学习。
  • 在噪声模型满足某些正则性与可积性条件的假设下,为 Isotron 的性能建立了理论保证。
  • 本文建立了干净分布与噪声分布之间的正式联系,使得可基于噪声结构推导出一致性结果。
  • 结果表明,即使噪声依赖于输入和真实标签,实例相关噪声也不会阻碍一致学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。