[论文解读] Detecting Out-of-Distribution Inputs to Deep Generative Models Using Typicality
本文提出一种模型无关、基于自举的典型性测试,通过测试输入的似然度来判断是否属于模型的典型集合,从而检测深度生成模型的分布外输入。
Recent work has shown that deep generative models can assign higher likelihood to out-of-distribution data sets than to their training data (Nalisnick et al., 2019; Choi et al., 2019). We posit that this phenomenon is caused by a mismatch between the model's typical set and its areas of high probability density. In-distribution inputs should reside in the former but not necessarily in the latter, as previous work has presumed. To determine whether or not inputs reside in the typical set, we propose a statistically principled, easy-to-implement test using the empirical distribution of model likelihoods. The test is model agnostic and widely applicable, only requiring that the likelihood can be computed or closely approximated. We report experiments showing that our procedure can successfully detect the out-of-distribution sets in several of the challenging cases reported by Nalisnick et al. (2019).
研究动机与目标
- 动机:模型的高密度区域与其典型集合之间的不一致性,成为误导性似然用于OOD数据的来源。
- 给出一个有原理、可扩展的GoF检验,用于在不依赖CDF或低维投影的前提下判定是否为OOD。
- 提供一个实用实现,适用于任何具可计算似然的DGM,并在低数据情形下具有鲁棒性。
- 在多种DGM和数据集上评估该方法,以识别基于典型性的OOD检测的成功与失败模式。
提出的方法
- 通过香农熵和(ε,N)-典型集定义来形式化典型性。
- 将典型性重写为GoF检验:通过检查测试批是否落在AεM[p(x;θ)]来判定是否OOD。
- 估计模型熵,可以使用再替代估计量(resubstitution)或蒙特卡罗样本:H[p(x;θ)] ≈ (1/S)∑−log p(x̂s;θ) 或 (1/N)∑−log p(xn;θ)。
- 使用留出验证数据上的自举置信区间来设定判决阈值ε,以控制第一类错误。
- 计算检验统计量ε̂ = | (1/M)∑−log p(x̃m;θ) − H[p(x;θ)] |,若ε̂ > ε则拒绝。
- 提供一个完全离线的自举过程,在测试阶段前为期望的α预先计算阈值εαM。
实验结果
研究问题
- RQ1基于典型性的标准是否能够可靠地区分深度生成模型中的同分布数据与分布外数据?
- RQ2在高维情境下,测试模型典型集合的成员资格是否优于基于密度的OOD检测?
- RQ3在实际DGM应用中,基于自举推导的GoF阈值有多实用、鲁棒?
- RQ4在不同架构和数据集下,基于典型性的OOD检测有哪些失败模式与局限?
主要发现
- 在若干挑战性场景中,所提出的典型性检验能够检测到OOD输入,即使仅凭似然度会产生误导,这在多种DGM与数据集上有所体现。
- 使用自举来设定OOD阈值,得出对高维数据和各种模型类别(正则化流、变分自编码器、自回归模型)均鲁棒的决策规则。
- 通过再替代的经验熵估计通常相较于纯蒙特卡罗估计能提升OOD检测性能。
- 该方法暴露出不同模型与数据组合下的显著失败模式和变异性,强调未来改进的空间。
- 与若干GoF基线(t检验、KS检验、MMD、KSD、环带)相比,典型性方法在区分OOD批次方面具有竞争力,甚至在某些情况下优于它们。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。