Skip to main content
QUICK REVIEW

[论文解读] Isotropic Maximization Loss and Entropic Score: Fast, Accurate, Scalable, Unexposed, Turnkey, and Native Neural Networks Out-of-Distribution Detection

David Macêdo, Tsang Ing Ren|arXiv (Cornell University)|Aug 15, 2019
Adversarial Robustness in Machine Learning被引用 2
一句话总结

本文提出 IsoMax 损失和熵分值,通过解决 SoftMax 损失的各向异性问题,从而改善分布外检测(ODD)性能,作者将此各向异性识别为神经网络中不确定性的主要来源。用 IsoMax 替代 SoftMax 可实现快速、准确、可扩展且原生的 ODD,无需对抗训练、异常值暴露、集成方法或贝叶斯方法,仅通过最小的架构修改即可实现最先进性能。

ABSTRACT

Current out-of-distribution detection (ODD) approaches require cumbersome procedures that add undesired side-effects to the solution. In this paper, we argue that the uncertainty in neural networks is mainly due to SoftMax loss anisotropy. Consequently, we propose an isotropic loss (IsoMax) and a decision score (Entropic Score) to significantly improve the ODD performance while keeping the overall solution fast, accurate, scalable, unexposed, turnkey, and native. Our experiments indeed showed that uncertainty is extremely reduced simply by replacing the SoftMax loss without relying on techniques such as adversarial training/validation, special-purpose data augmentation, outlier exposure, ensembles methods, Bayesian mechanisms, generative approaches, metric learning, or additional classifiers/regressions. The results also showed that our straightforward proposal overcomes ODIN, ACET, and is competitive against the Mahalanobis approach besides avoiding their undesired requirements and weaknesses. Since IsoMax loss works as a direct and transparent SoftMax loss drop-in replacement, these techniques may be used combined with our loss to increase the overall performance even more if their associated drawbacks are not a concern in a particular use case.

研究动机与目标

  • 解决神经网络中分布外检测(ODD)不确定性的根本原因,即 SoftMax 损失的各向异性问题。
  • 开发一种解决方案,提升 ODD 性能,同时避免依赖复杂且易产生副作用的技术,如对抗训练、异常值暴露或集成方法。
  • 设计一种方法,实现快速、可扩展,并可无缝集成到现有深度学习流水线中,且仅需最小的架构修改。
  • 在性能上达到或超越当前最先进方法(如 ODIN 和马氏距离方法)的 ODD 表现,同时避免其需求和限制。

提出的方法

  • 提出 IsoMax 损失,作为 SoftMax 损失的直接、透明替代方案,通过在 logits 空间中强制实现各向同性行为,以消除输出空间中的各向异性。
  • 引入熵分值,作为从 IsoMax 模型输出概率中导出的决策分值,用于区分分布内与分布外样本。
  • 制定 IsoMax 损失,通过归一化 logits 的方式促进决策边界的均匀性,从而减少置信度估计中的方向偏差。
  • 使用标准交叉熵训练配合 IsoMax 损失,实现与现有训练流水线的无缝集成,无需架构重构。
  • 应用熵分值基于预测类别概率的熵来计算不确定性分值,实现有效的 ODD 检测,无需额外模型或校准。
  • 支持端到端训练使用 IsoMax 损失,并在推理阶段使用熵分值,保持与标准深度学习框架的完全兼容性。

实验结果

研究问题

  • RQ1通过减少 SoftMax 损失的各向异性,是否能显著提升分布外检测性能,而无需引入额外复杂性?
  • RQ2作为 SoftMax 损失的即插即用替代方案,IsoMax 是否能在保持可扩展性和高效性的同时,实现最先进水平的 ODD 性能?
  • RQ3在仅使用 IsoMax 模型输出概率的情况下,熵分值是否能有效检测分布外样本,而无需辅助模型或数据?
  • RQ4与 ODIN、ACET 及基于马氏距离的方法相比,所提出方法在准确性、可扩展性及所需训练流程方面表现如何?
  • RQ5IsoMax 和熵分值在与其它 ODD 技术结合时,能在多大程度上避免其典型副作用?

主要发现

  • 用 IsoMax 损失替代 SoftMax 损失可显著降低神经网络中的不确定性,通过消除各向异性,从而在不增加训练或数据的情况下提升 OOD 检测性能。
  • 所提方法在标准基准上性能与马氏距离方法相当,且优于 ODIN 和 ACET,尽管未使用异常值暴露或对抗训练。
  • 熵分值仅基于模型输出概率即可有效区分分布外样本,实现高精度检测,无需额外分类器或回归模型。
  • 该解决方案完全可扩展,且与标准深度学习流水线完全兼容,可作为 SoftMax 的直接替代品,无需任何架构修改。
  • 该方法被描述为“即插即用”和“原生”型,意味着可立即部署于生产系统中,无需复杂配置或校准流程。
  • 由于其简洁性和直接集成性,该方法避免了现有 ODD 技术的常见副作用,如分布偏移或在分布偏移下的性能下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。