[论文解读] WAIC, but Why? Generative Ensembles for Robust Anomaly Detection
本文提出使用 WAIC(Watanabe-Akaike Information Criterion)来稳健地检测分布外输入,方法是将密度估计与来自生成模型集合的 epistemic 不确定性相结合。文中还讨论了为何仅凭似然可能产生误导,并给出在图像数据集和信用卡数据集上的实证结果。
Machine learning models encounter Out-of-Distribution (OoD) errors when the data seen at test time are generated from a different stochastic generator than the one used to generate the training data. One proposal to scale OoD detection to high-dimensional data is to learn a tractable likelihood approximation of the training distribution, and use it to reject unlikely inputs. However, likelihood models on natural data are themselves susceptible to OoD errors, and even assign large likelihoods to samples from other datasets. To mitigate this problem, we propose Generative Ensembles, which robustify density-based OoD detection by way of estimating epistemic uncertainty of the likelihood model. We present a puzzling observation in need of an explanation -- although likelihood measures cannot account for the typical set of a distribution, and therefore should not be suitable on their own for OoD detection, WAIC performs surprisingly well in practice.
研究动机与目标
- 通过在不依赖任务特定异常的前提下,检测与训练数据不同的输入(OoD),以推动安全的 ML 部署。
- 研究基于似然的 OoD 检测的局限性,并探索 WAIC 作为稳健的替代方案。
- 提出 Generative Ensembles,估计 epistemic 不确定性,以改进基于密度的异常检测。
- 在图像数据集(MNIST、Fashion-MNIST、CIFAR-10)以及真实世界信用卡欺诈数据集上进行评估,以与基线方法进行比较。
提出的方法
- 将 WAIC 定义为 E_theta[log p_theta(x)] - Var_theta[log p_theta(x)],使用独立训练的生成模型集合作为近似后验样本。
- 将 WAIC 应用于似然模型(自回归、流式、VAE),以获得稳健的异常分数。
- 展示集合方差如何正则化对后验选择的敏感性,并帮助识别 OoD 输入。
- 通过利用一个鉴别器集合的预测不确定性,扩展基于 GAN 的异常检测,以检测 OoD 输入。
- 在多数据集上将生成式 Ensemble 与 ODIN、VIB、以及基于密度的基线进行实验性对比。
实验结果
研究问题
- RQ1来自一个生成模型集合的 WAIC 汇总不确定性是否能在超过单模型似然的情况下改进 OoD 检测?
- RQ2基于似然的 OoD 信号是否会错误地将高维数据的典型区域识别为异常,WAIC 是否能缓解这种不当行为?
- RQ3与判别式 OoD 检测器(如 ODIN、VIB)相比,生成式 Ensemble 在常规基准和真实世界异常情景中的表现如何?
- RQ4在训练生成模型(如 beta-VAE 调整)以提高 OoD 检测方面存在哪些实际洞察?
主要发现
- 基于集成的 WAIC 在 MNIST、Fashion-MNIST、CIFAR-10 以及其他数据集上的许多 OoD 任务中优于单模型似然。
- WAIC 常识别在单个模型下具有高似然的 OoD 样本,解决了基于似然的检测的已知局限。
- 生成式 Ensemble 与判别式 OoD 基线(ODIN、VIB)具有竞争力,在若干任务上无需标签信息即可超越它们。
- 对训练目标的调整(如 beta-VAE)会影响 OoD 信号的质量,某些设置提升了检测效果。
- 在真实世界的 Kaggle 信用欺诈数据集中,基于密度的 WAIC 方法相对于仅在正常交易上训练的判别分类器基线,表现出较强的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。