Skip to main content
QUICK REVIEW

[论文解读] Classifying Anomalies THrough Outer Density Estimation (CATHODE)

Anna Hallin, Joshua Isaacson|arXiv (Cornell University)|Sep 1, 2021
Particle physics theoretical and experimental studies参考文献 54被引用 25
一句话总结

CATHODE 是一种与模型无关的 LHC 异常检测策略,它使用带条件密度模型的外密度估计在信号区生成背景样本,然后训练分类器区分数据与背景模型,在 LHCO 的研发数据上实现近似最优的异常检测性能。

ABSTRACT

We propose a new model-agnostic search strategy for physics beyond the standard model (BSM) at the LHC, based on a novel application of neural density estimation to anomaly detection. Our approach, which we call Classifying Anomalies THrough Outer Density Estimation (CATHODE), assumes the BSM signal is localized in a signal region (defined e.g. using invariant mass). By training a conditional density estimator on a collection of additional features outside the signal region, interpolating it into the signal region, and sampling from it, we produce a collection of events that follow the background model. We can then train a classifier to distinguish the data from the events sampled from the background model, thereby approaching the optimal anomaly detector. Using the LHC Olympics R&D dataset, we demonstrate that CATHODE nearly saturates the best possible performance, and significantly outperforms other approaches that aim to enhance the bump hunt (CWoLa Hunting and ANODE). Finally, we demonstrate that CATHODE is very robust against correlations between the features and maintains nearly-optimal performance even in this more challenging setting.

研究动机与目标

  • 提出一种在 LHC 上针对 BSM 物理的模型无关搜索策略,旨在补充传统的有针对性的分析。
  • 开发一个从外部(侧带)区域学习背景分布并采样到信号区以实现稳健异常检测的方法。
  • 证明该方法在数据对背景的异常检测中接近理论最优,并且对特征之间的相关性具有鲁棒性。
  • 将其性能与基于峰值搜索的增强(CWOLA Hunting)和基于密度估计的方法(A-node)进行比较。
  • 量化对背景模型过采样的收益并在特征与信号相关性下评估鲁棒性。

提出的方法

  • 使用掩蔽自回归流(MAF)在外部(侧带)区域训练一个条件密度估计器,以建模 p(x|m not in SR)。
  • 通过从插值得到的背景密度进行采样,将学到的外部密度插值到信号区,以产生 SR 中的背景样本。
  • 训练一个分类器以将 SR 中的数据与采样得到的背景事件区分开来,从而近似似然比 p_data(x|m)/p_bg(x|m)。
  • 使用一个模型状态的集合(10 个训练轮次)来进行密度估计和分类器预测,以稳定结果。
  • 通过生成大量合成背景事件来过采样背景模型,以改进分类器训练和异常敏感度。
  • 使用显著性提升特征(SIC)评估性能,并与 CWOLA Hunting、A-node、理想化异常检测器以及完全监督分类器进行比较。
  • 处理特征预处理(logit 转换、标准化)和基于 KDE 的 m_JJ 采样,以确保在 SR 中的一致采样。

实验结果

研究问题

  • RQ1在数据对背景的异常检测设定中,CATHODE 是否能接近最优的似然比探测器?
  • RQ2在不同信号强度下,CATHODE 与基于峰值搜索的增强(CWOLA Hunting)和纯密度估计方法(A-node)相比表现如何?
  • RQ3CATHODE 是否对辅助特征 x 与隆起变量 m_JJ(在 SR 和 SB 中)的相关性具有鲁棒性,而这些相关性会给其他方法带来挑战?
  • RQ4对异常检测性能影响背景模型的过采样程度如何,最优的采样大小是多少?
  • RQ5当信噪比(S/B)变化时,尤其是在低 S/B 情况下,CATHODE 的表现如何?

主要发现

  • CATHODE 在 LHCO 研发数据集上,在广泛的信号效率范围内超过 CWOLA Hunting 和 A-node。
  • 该方法在 SIC 最大值大约为 14,超过 A-node(约 6.5)和 CWOLA Hunting(约 11)。
  • CATHODE 的性能接近理想化的异常检测器,表明在这一设置下理论上界的近似饱和。
  • 该方法在 x 与 m_JJ 的相关性下保持鲁棒,与在相关性下显著退化的 CWOLA Hunting 不同。
  • 过采样背景模型(例如,使用大约 200k 个合成 SR 背景事件)显著提高 SIC,但在达到某一采样规模后收益递减。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。