[论文解读] Improving Reconstruction Autoencoder Out-of-distribution Detection with Mahalanobis Distance
论文展示重建自编码器可能遗漏某些 OOD 样本,并提出一个混合新颖度分数,将重建误差与潜在空间中的马氏距离结合,以提高 OOD 检测。
There is an increasingly apparent need for validating the classifications made by deep learning systems in safety-critical applications like autonomous vehicle systems. A number of recent papers have proposed methods for detecting anomalous image data that appear different from known inlier data samples, including reconstruction-based autoencoders. Autoencoders optimize the compression of input data to a latent space of a dimensionality smaller than the original input and attempt to accurately reconstruct the input using that compressed representation. Since the latent vector is optimized to capture the salient features from the inlier class only, it is commonly assumed that images of objects from outside of the training class cannot effectively be compressed and reconstructed. Some thus consider reconstruction error as a kind of novelty measure. Here we suggest that reconstruction-based approaches fail to capture particular anomalies that lie far from known inlier samples in latent space but near the latent dimension manifold defined by the parameters of the model. We propose incorporating the Mahalanobis distance in latent space to better capture these out-of-distribution samples and our results show that this method often improves performance over the baseline approach.
研究动机与目标
- 在像自动驾驶这样的安全关键系统中,阐明对可靠 OOD 检测的需求。
- 展示仅将重建误差作为 OOD 检测的新颖性度量的局限性。
- 提出一种混合评分方法,将潜在空间的马氏距离与重建误差结合。
- 评估混合方法在 MNIST 内部类上的 OOD 检测是否得到提升。
提出的方法
- 在 MNIST 数字上训练重建自编码器,每个模型使用一个单独的正常样本类别。
- 将潜在空间的马氏距离与重建误差按权重加权组合来计算新颖性。
- 用训练数据的潜在编码的均值和协方差来参数化马氏距离。
- 在验证集上调整混合参数 alpha 和 beta,以平衡这两个分量。
- 在多个瓶颈尺寸下,将基线重建误差与混合分数进行比较。
- 使用标准 OOD 指标(AUROC、AUPR、FPR at 95% TPR)来评估性能。
实验结果
研究问题
- RQ1自编码器是否能够以低误差重构 OOD 样本,从而削弱仅依赖重建错误的 OOD 检测?
- RQ2将潜在空间的马氏距离纳入是否有助于检测此类 OOD 样本?
- RQ3瓶颈尺寸对混合 OOD 评分有效性的影响?
- RQ4相比仅使用重建误差,混合方法是否在常用 OOD 指标(AUROC、AUPR、FPR 95%TPR)上具有一致的提升?
主要发现
- 在重建误差基础上加入潜在空间的马氏距离往往能提升 OOD 检测性能,相较于仅使用重建误差。
- 混合方法的最佳瓶颈尺寸在各数字中大致范围为 8 到 64。
- 相较基线,在许多内在类中,混合评分在 95% TPR 下具有更低的 FPR,且 AUROC/AUPR 更高。
- 对 alpha 和 beta 的标准化策略防止任一特征主导新颖性分数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。