[论文解读] To Trust Or Not To Trust A Classifier
论文引入 trust score,一种基于数据分布的度量,比较分类器预测与在密度过滤后得到的修改最近邻分类器的输出,显示其在识别可信与可疑预测方面优于模型自信度。它在不同数据集和表示上提供非渐近保证和实证证据。
Knowing when a classifier's prediction can be trusted is useful in many applications and critical for safely using AI. While the bulk of the effort in machine learning research has been towards improving classifier performance, understanding when a classifier's predictions should and should not be trusted has received far less attention. The standard approach is to use the classifier's discriminant or confidence score; however, we show there exists an alternative that is more effective in many situations. We propose a new score, called the trust score, which measures the agreement between the classifier and a modified nearest-neighbor classifier on the testing example. We show empirically that high (low) trust scores produce surprisingly high precision at identifying correctly (incorrectly) classified examples, consistently outperforming the classifier's confidence score as well as many other baselines. Further, under some mild distributional assumptions, we show that if the trust score for an example is high (low), the classifier will likely agree (disagree) with the Bayes-optimal classifier. Our guarantees consist of non-asymptotic rates of statistical consistency under various nonparametric settings and build on recent developments in topological data analysis.
研究动机与目标
- 通过评估何时可以信任分类器预测,推动安全可靠的 ML 使用。
- 提出一个 trust score,将分类器与由高密度区域构建的修改最近邻参考进行比较。
- 在包括流形数据和近似流形数据的多种非参数设定下,提供非渐近的保证。
- 在多个数据集、模型和表示上,实证展示 trust score 的有效性。
提出的方法
- 通过用 k-NN 密度估计过滤最低密度样本,按类别定义 alpha-high-density-set。
- 将 trust score 计算为对测试点到不同类别的最近 alpha-high-density-set 的距离与到预测类别 alpha-high-density-set 的距离之比。
- 提供估计 alpha-high-density-set 的算法(Algorithm 1)以及计算 trust score 的算法(Algorithm 2)。
- 距离可以在任意表示下计算(原始输入、嵌入或中间网络层)。
- 使用两个超参数:k(邻居数)和 alpha(密度分数),在实践中通过交叉验证选择 alpha。
- 在全维和流形设置下对 Algorithm 1 证明非渐近一致性结果,并推广到全维噪声情形;在良好边界条件下证明 trust-score 保证(定理 4)。
实验结果
研究问题
- RQ1基于密度过滤最近邻距离的 trust score 是否能比分类器本身的置信度更好地指示何时应信任分类器的预测?
- RQ2在何种条件下高/低 trust score 与贝叶斯最优分类器的一致/不一致相关,以及在不同数据几何结构(全维、流形、带噪声的流形)下的估计速率?
- RQ3trust score 在不同数据表示和模型族(神经网络、随机森林、逻辑回归)及维度下的表现如何?
- RQ4使用基于密度的 trust score 来提升 ML 预测的可靠性和安全性,具有哪些理论保证与实践意义?
主要发现
- trust score 在识别正确分类样本方面往往比模型的置信度具有更高的精确度,特别是在低维到中维空间。
- 理论保证表明在温和的分布假设下,较高的 trust score 往往与 Bayes-optimal 分类器一致,而较低的分数往往不一致。
- alpha-high-density-set 的估计速率取决于本征维度;在流形上,速率与流形维度 d 相关,甚至在近似流形噪声下也可能与外部维度 D 无关。
- Algorithm 1 在正则性假设下实现了 alpha-high-density-set 的 Hausdorff-一致估计,且速率对流形结构具有自适应性。
- Algorithm 2 提供概率性保证,若存在边际条件,则 trust score 能正确指示与 Bayes-optimal 分类器的一致性。
- 经验上,在 UCI 数据集以及 CPU/GPU 基准测试中,trust score 的表现优于模型置信度,并在包括中间神经网络层的表示中表现良好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。