Skip to main content
QUICK REVIEW

[论文解读] Estimating the Accuracies of Multiple Classifiers Without Labeled Data

Ariel Jaffe, Boaz Nadler|arXiv (Cornell University)|Jul 29, 2014
Machine Learning and Data Classification参考文献 20被引用 28
一句话总结

该论文提出了一种谱方法,无需标签数据即可估计多个二值分类器的准确性,利用分类器预测协方差矩阵和张量的秩-一结构。该方法引入了一种一致且计算高效的算法(i-SML),通过估计类别不平衡和分类器的敏感性/特异性,提升了集成性能,实现了在$π(1/\sqrt{n})$条件下的最优误差收敛速率。

ABSTRACT

In various situations one is given only the predictions of multiple classifiers over a large unlabeled test data. This scenario raises the following questions: Without any labeled data and without any a-priori knowledge about the reliability of these different classifiers, is it possible to consistently and computationally efficiently estimate their accuracies? Furthermore, also in a completely unsupervised manner, can one construct a more accurate unsupervised ensemble classifier? In this paper, focusing on the binary case, we present simple, computationally efficient algorithms to solve these questions. Furthermore, under standard classifier independence assumptions, we prove our methods are consistent and study their asymptotic error. Our approach is spectral, based on the fact that the off-diagonal entries of the classifiers' covariance matrix and 3-d tensor are rank-one. We illustrate the competitive performance of our algorithms via extensive experiments on both artificial and real datasets.

研究动机与目标

  • 解决在缺乏标签数据且分类器可靠性未知的情况下估计分类器准确性的挑战。
  • 开发一种计算高效、无监督的方法,用于在不事先了解其性能的情况下对多个分类器进行排序并估计其真实准确性。
  • 通过利用预测协方差结构,构建比现有方法(如多数投票或SML)更准确的无监督集成分类器。
  • 为所提出的估计器在标准独立性假设下的理论一致性及渐近误差率提供保证。
  • 通过标准约化方法将该方法扩展至多分类问题,尽管重点仍集中于二分类情形。

提出的方法

  • 利用分类器预测的$m \times m$协方差矩阵和$m \times m \times m$联合协方差张量,利用其在分类器独立性假设下的秩-一结构。
  • 通过协方差矩阵和张量的共享主特征向量的最小二乘过程提取类别不平衡参数$b$,前提是存在不同的特征值。
  • 提出第二种基于一维扫描上的受限似然最大化的方法来估计$b$,其最大值出现在真实不平衡值处。
  • 利用估计的$b$和观测到的预测频率,估计每个分类器的敏感性和特异性。
  • 通过结合基于估计准确性的分类器预测,构建i-SML无监督集成学习器,优于SML和多数投票方法。
  • 应用谱分解和张量分析,从无标签预测矩阵中恢复潜在的分类器可靠性。

实验结果

研究问题

  • RQ1我们能否在没有任何标签数据或对分类器可靠性先验知识的情况下,一致地估计多个分类器的准确性?
  • RQ2是否可能仅使用无标签预测,构建比现有方法(如多数投票或SML)更准确的无监督集成分类器?
  • RQ3所提出的准确性估计方法的渐近误差率是多少?是否达到最优速率?
  • RQ4在准确性和计算效率方面,谱方法与基于似然的类别不平衡估计方法相比如何?
  • RQ5所提出的方法能否扩展至多分类问题,同时保持一致性和效率?

主要发现

  • 所提出的基于张量的方法在给定假设下实现了$π(1/\sqrt{n})$的渐近误差率,达到最优速率。
  • 受限似然估计器在类别不平衡上的表现优于基于张量的估计器,在人工数据和真实数据上均显示出更高的准确性。
  • 在'magic'数据集上,i-SML集成方法相比SML将平衡准确率提高了约2%,且在30次随机实现中均保持一致的改进。
  • 实证结果证实,随着无标签样本数$n$的增加,两种算法的误差均趋近于真实类别不平衡值,且在双对数坐标下均呈现均方误差下降趋势。
  • i-SML方法在所有测试数据集(包括MNIST和UCI数据集)上均显著优于多数投票和SML,表现出稳定且一致的性能提升。
  • 理论分析证实,在分类器误差独立的假设下,两种估计器均具有一致性,实验中也观察到了较强的有限样本性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。