Skip to main content
QUICK REVIEW

[论文解读] Robust Kernel Density Estimation

JooSeuk Kim, Clayton Scott|arXiv (Cornell University)|Jul 15, 2011
Anomaly Detection Techniques and Applications参考文献 30被引用 175
一句话总结

本文提出了一种鲁棒核密度估计器(RKDE),通过将核密度估计与M-估计相结合,降低在污染训练数据下的敏感性。通过将KDE解释为再生核希尔伯特空间(RKHS)中的样本均值,并应用鲁棒M-估计,RKDE在数据污染条件下实现了改进的密度估计与异常检测性能,并通过核化IRWLS算法提供了收敛性保证。

ABSTRACT

We propose a method for nonparametric density estimation that exhibits robustness to contamination of the training sample. This method achieves robustness by combining a traditional kernel density estimator (KDE) with ideas from classical $M$-estimation. We interpret the KDE based on a radial, positive semi-definite kernel as a sample mean in the associated reproducing kernel Hilbert space. Since the sample mean is sensitive to outliers, we estimate it robustly via $M$-estimation, yielding a robust kernel density estimator (RKDE). An RKDE can be computed efficiently via a kernelized iteratively re-weighted least squares (IRWLS) algorithm. Necessary and sufficient conditions are given for kernelized IRWLS to converge to the global minimizer of the $M$-estimator objective function. The robustness of the RKDE is demonstrated with a representer theorem, the influence function, and experimental results for density estimation and anomaly detection.

研究动机与目标

  • 解决传统核密度估计器(KDE)在数据污染下的鲁棒性不足问题。
  • 开发一种非参数密度估计器,使其在少数训练数据为异常值时仍保持准确性。
  • 确保估计器计算高效,并能可靠收敛至全局解。
  • 通过影响函数分析与表示定理,为鲁棒性提供理论依据。
  • 在污染的基准数据集上,展示RKDE在密度估计与异常检测方面优于基线方法的性能。

提出的方法

  • 将KDE重新解释为与径向正定核相关的再生核希尔伯特空间(RKHS)中的样本均值。
  • 通过在RKHS中用M-估计器替代样本均值,最小化鲁棒损失函数,从而实现鲁棒性。
  • 开发了一种核化迭代重加权最小二乘法(KIRWLS)算法,以高效计算RKDE。
  • 在核函数与损失函数满足必要且充分条件时,保证KIRWLS收敛至M-估计器目标函数的全局最小值。
  • 证明RKDE为加权KDE,其中异常点获得更小的权重,该结论由表示定理形式化。
  • 推导出影响函数的闭式表达,量化对污染的敏感性,表明其影响显著小于标准KDE。

实验结果

研究问题

  • RQ1是否可以设计一种非参数密度估计器,在不假设名义分布或污染分布参数形式的前提下,对污染具有鲁棒性?
  • RQ2如何在保持KDE非参数灵活性的同时,降低其对异常值的敏感性?
  • RQ3在何种条件下,核化IRWLS算法能收敛至M-估计器目标函数的全局解?
  • RQ4RKDE在污染条件下的密度估计中,相较于标准KDE与可变带宽KDE,性能提升程度如何?
  • RQ5当训练数据包含异常值时,RKDE在异常检测任务中的表现如何?

主要发现

  • 通过表示定理证明,RKDE可视为一种加权KDE,其中异常程度越高的数据点权重越小。
  • RKDE的影响函数有界,且显著小于KDE的影响函数,证实其对污染具有鲁棒性。
  • 在核函数与损失函数满足特定条件时,核化IRWLS算法能收敛至M-估计器目标函数的全局最小值。
  • 实验结果表明,RKDE在污染基准数据集上的密度估计性能优于标准KDE与可变带宽KDE。
  • 在异常检测任务中,RKDE的检测准确率更高,AUC值也优于基线方法。
  • RKDE在不同污染水平与核函数类型下均保持一致的性能表现,展现出良好的通用鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。