QUICK REVIEW

[论文解读] Can You Trust This Prediction? Auditing Pointwise Reliability After Learning

Peter Schulam, Suchi Saria|arXiv (Cornell University)|Jan 2, 2019

Adversarial Robustness in Machine Learning参考文献 51被引用 37

一句话总结

论文介绍 Resampling Uncertainty Estimation (RUE)，一种在训练后通过使用梯度和海森信息近似自举样本的重采样方法来量化每个预测可靠性的审计方法。RUE比若干后验方法更有效地检测不准确预测，并在不需要更改训练过程的情况下产生具有竞争力的预测分布。

ABSTRACT

To use machine learning in high stakes applications (e.g. medicine), we need tools for building confidence in the system and evaluating whether it is reliable. Methods to improve model reliability often require new learning algorithms (e.g. using Bayesian inference to obtain uncertainty estimates). An alternative is to audit a model after it is trained. In this paper, we describe resampling uncertainty estimation (RUE), an algorithm to audit the pointwise reliability of predictions. Intuitively, RUE estimates the amount that a prediction would change if the model had been fit on different training data. The algorithm uses the gradient and Hessian of the model's loss function to create an ensemble of predictions. Experimentally, we show that RUE more effectively detects inaccurate predictions than existing tools for auditing reliability subsequent to training. We also show that RUE can create predictive distributions that are competitive with state-of-the-art methods like Monte Carlo dropout, probabilistic backpropagation, and deep ensembles, but does not depend on specific algorithms at train-time like these methods do.

研究动机与目标

激发对高风险机器学习应用中可靠性工具的需求，超越传统的保留集误差指标。
介绍 RUE 作为一种学习后审计方法，在不重新训练的情况下估计每个预测的不确定性。
展示 RUE 使用与模型相关的相似性度量，符合密度和局部拟合可靠性标准。
展示 RUE 在检测错误预测和产生具有竞争力的预测分布方面的有效性。

提出的方法

通过从通过自举样本法生成的参数集合对每个测试输入进行抽样预测，以计算不确定性分数。
使用训练损失的梯度和海森来构建自举权重到更新参数的近似映射（A = H̃^{-1}L）。
从多项分布抽取自举样本权重向量 w，得到参数样本 θ* = θ̂ − A(w − w0)。
使用每个 θ* 对测试输入进行预测，形成一个集成，并将列方向的预测方差记为不确定性分数 σ̂_RUE^2(x)。
用 λI 阻尼海森以确保可逆，并讨论与自举、拉普拉斯近似和鲁棒统计的联系。
将 σ̂_RUE^2(x) 与通过梯度与曲率编码输入相似性的模型相关核 k_RUE 联系起来。

实验结果

研究问题

RQ1训练后审计是否能在不改变训练过程的情况下揭示逐点的不可靠性？
RQ2基于 RUE 的不确定性分数与现有的后验方法（Laplace、KDE、Bootstrap SGD）在检测错误预测方面如何比较？
RQ3RUE 能否产生与以不确定性目标进行训练的集成不确定性方法竞争的预测分布？
RQ4RUE、自举与鲁棒统计之间的理论联系是什么，它们在实证中如何体现？

主要发现

与大多数数据集和错误阈值相比，RUE 在检测不准确预测方面比 Laplace、KDE 和 Bootstrap SGD 更有效。
尽管不改变训练过程，RUE 仍能生成与最先进的集成方法竞争的预测分布。
RUE 的不确定性分数通过模型相关的内积实现密度与局部拟合标准，提升了相较于基于欧几里得距离的方法的可解释性。
RUE 提供了一个实用的审计工具，与标准训练流程配合，不需要贝叶斯或集成方法在训练时的算法依赖。
论文讨论了可扩展性考量和实际策略（如海森向量积、阻尼及可能的近似）以实现部署。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。