Skip to main content
QUICK REVIEW

[論文レビュー] Classifying Anomalies THrough Outer Density Estimation (CATHODE)

Anna Hallin, Joshua Isaacson|arXiv (Cornell University)|Sep 1, 2021
Particle physics theoretical and experimental studies参考文献 54被引用数 25
ひとこと要約

CATHODEは、外部密度推定と条件密度モデルを用いて信号領域で背景に似たサンプルを生成し、データと背景モデルを区別する分類器を訓練してほぼ最適な異常検出性能をLHCO R&Dデータで達成する、モデル非依存のLHC異常検出戦略である。

ABSTRACT

We propose a new model-agnostic search strategy for physics beyond the standard model (BSM) at the LHC, based on a novel application of neural density estimation to anomaly detection. Our approach, which we call Classifying Anomalies THrough Outer Density Estimation (CATHODE), assumes the BSM signal is localized in a signal region (defined e.g. using invariant mass). By training a conditional density estimator on a collection of additional features outside the signal region, interpolating it into the signal region, and sampling from it, we produce a collection of events that follow the background model. We can then train a classifier to distinguish the data from the events sampled from the background model, thereby approaching the optimal anomaly detector. Using the LHC Olympics R&D dataset, we demonstrate that CATHODE nearly saturates the best possible performance, and significantly outperforms other approaches that aim to enhance the bump hunt (CWoLa Hunting and ANODE). Finally, we demonstrate that CATHODE is very robust against correlations between the features and maintains nearly-optimal performance even in this more challenging setting.

研究の動機と目的

  • LHCでのBSM物理学のためのモデル非依存の探索戦略を動機づけ、従来の標的分析を補完する。
  • 外部(サイドバンド)領域から背景分布を学習し、信号領域へサンプリングして堅牢な異常検出を可能にする方法を開発する。
  • データ対背景の異常検出における理論上の最適解に近づくことを示し、特徴量間の相関に対して堅牢であることを示す。
  • バンプハントを用いた強化(CWOLA Hunting)および密度推定ベースのアプローチ(A-node)と比較する。
  • 背景モデルを過剰サンプリングすることの利点を定量化し、特徴量と信号間の相関下での堅牢性を評価する。

提案手法

  • 信号領域外の外部(サイドバンド)領域上で Masked Autoregressive Flows (MAF) を用いて p(x|m not in SR) をモデル化する条件付き密度推定器を訓練する。
  • 学習した外部密度を信号領域に補間し、補間された背景密度からサンプリングしてSR内の背景様イベントを生成する。
  • SR内のデータとサンプルされた背景イベントとを区別する分類器を訓練し、これにより尤度比 p_data(x|m)/p_bg(x|m) を近似する。
  • 結果の安定化のため、密度推定と分類器予測に対してモデル状態のアンサンブル(10エポック)を用いる。
  • 分類器の訓練と異常感度を向上させるため、背景モデルを過剰サンプリングして大規模な合成背景イベントを生成する。
  • 性能を Significance Improvement Characteristic (SIC) で評価し、CWOLA Hunting、A-node、理想化された異常検出器、完全に教師あり分類器と比較する。
  • 特徴量前処理(ロジット変換、標準化)と m_JJ の KDEベースのサンプリングを扱い、SRでの一貫したサンプリングを保証する。

実験結果

リサーチクエスチョン

  • RQ1CATHODEはデータ対背景の異常検出設定で最適な尤度比検出器に近づくことができるのか?
  • RQ2信号強度にわたってCWOLA Huntingによる強化および純粋な密度推定アプローチ(A-node)と比較して、CATHODEはどのように性能を発揮するか?
  • RQ3SRとSBで他の手法を困らせる補助特徴 x とバンプ変数 m_JJ の相関に対して、CATHODEは堅牢か?
  • RQ4背景モデルの過剰サンプリングが異常検出性能に与える影響は何か、最適なサンプリングサイズは?
  • RQ5信号対背景比(S/B)が変化した場合、特に低S/Bで、CATHODEはどのように性能を発揮するか?

主な発見

  • CATHODEはLHCO R&Dデータセット上でCWOLA HuntingおよびA-nodeよりも広い範囲の信号効率で上回る。
  • 方法は最大のSICを約14に達し、A-node(約6.5)およびCWOLA Hunting(約11)を上回る。
  • CATHODEの性能は理想化された異常検出器とほぼ同等の水準に近づいており、この設定で理論上の上限をほぼ飽和していることを示す。
  • xとm_JJの相関に対しては堅牢性を保つ一方、CWOLA Huntingは相関下で大幅に劣化する。
  • 背景モデルを過剰サンプリング(例として約20万の合成SR背景イベントを使用)するとSICが大幅に改善されるが、一定のサンプリングサイズを超えると収穫減少が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。