QUICK REVIEW

[論文レビュー] Variational Autoencoders for Anomalous Jet Tagging

Taoli Cheng, J-F. Arguin|arXiv (Cornell University)|Jul 3, 2020

Anomaly Detection Techniques and Applications参考文献 40被引用数 28

ひとこと要約

本稿では、LHCにおける非教師付き異常ジャケット検出のためのOutlier Exposed Variational Autoencoder (OE-VAE)を提案する。低レベルのジャケット成分を入力として用い、トップおよびWジャケットなどの非QCD信号を検出する。訓練中に異常サンプルを組み込むことで、OE-VAEは異常検出性能を向上させるとともに、ジャケット質量と異常スコアの相関を低減し、トップジャケットでAUC = 0.954を達成。ホールドアウトされた信号クラスにおいて、標準VAEおよび質量非相関付き教師あり分類器を上回る性能を示した。

ABSTRACT

We present a detailed study on Variational Autoencoders (VAEs) for anomalous jet tagging at the Large Hadron Collider. By taking in low-level jet constituents' information, and training with background QCD jets in an unsupervised manner, the VAE is able to encode important information for reconstructing jets, while learning an expressive posterior distribution in the latent space. When using the VAE as an anomaly detector, we present different approaches to detect anomalies: directly comparing in the input space or, instead, working in the latent space. In order to facilitate general search approaches such as bump-hunt, mass-decorrelated VAEs based on distance correlation regularization are also studied. We find that the naive mass-decorrelated VAEs fail at maintaining proper detection performance, by assigning higher probabilities to some anomalous samples. To build a performant mass-decorrelated anomalous jet tagger, we propose the Outlier Exposed VAE (OE-VAE), for which some outlier samples are introduced in the training process to guide the learned information. OE-VAEs are employed to achieve two goals at the same time: increasing sensitivity of outlier detection and decorrelating jet mass from the anomaly score. We succeed in reaching excellent results from both aspects. Code implementation of this work can be found at https://github.com/taolicheng/VAE-Jet

研究の動機と目的

ラベル付き信号例に依存せずに、モデルに依存しないデータ駆動型の手法を用いて、ジェットデータにおける新しい物理信号を検出すること。
標準VAEが質量と異常スコアの非相関化を図った場合に検出性能が低下するという限界を解消すること。
構造的潜在表現を有する変分オートエンコーダーを用いて、高次元のジェット成分データにおける非教師付き異常検出を改善すること。
正則化と異常サンプルの注入により質量非相関異常スコアを構築することで、バンプハンティング風の探索を可能にすること。

提案手法

QCDジャケット成分を教師なしで学習し、正則化された潜在分布を学び、入力特徴を最小限の再構成誤差で再構築するVAEを訓練する。
入力空間および潜在空間の両方で外れ値を検出するために、MSE、KLダイバージェンス、Earth Mover’s Distance (EMD)、およびMulti-Scale Score (MSS) の複数の異常スコアを用いる。
距離相関正則化を適用し、ジャケット質量と異常スコアの間の非相関を強制的に保証することで、質量非相関探索を支援する。
本稿では、異常サンプル（例：Wおよびトップジャケット）のサブセットを訓練中に明示的に組み込むことで、モデルの一般化および耐性を向上させる、新しいOutlier Exposed VAE (OE-VAE) を提案する。
再構成誤差とKLダイバージェンスのバランスを取るために、β-VAEの目的関数を最適化し、βを調整することで再構成忠実度と潜在空間正則化のトレードオフを制御する。
ホールドアウトされた信号クラスにおけるAUCとROC曲線を用いて、OE-VAEの性能を標準VAE、教師ありDNN分類器、および質量非相関ベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1QCDジャケットのみで訓練されたVAEは、教師なしで非QCDの異常ジャケットを効果的に検出できるか？
RQ2距離相関正則化は、VAEベースの異常検出において、ジャケット質量と異常スコアの非相関化を成功させるか？
RQ3ナーブな質量非相関VAEはなぜ検出性能を維持できないのか？この問題はどのように是正できるか？
RQ4訓練中に異常サンプルを注入することで、VAEにおける異常検出感度と質量非相関性が向上するか？
RQ5ホールドアウトされた信号クラスにおいて、OE-VAEの性能は、質量非相関付き教師あり分類器と比べてどうか？

主な発見

OE-VAEはトップジャケットタグギングタスクでAUC = 0.954を達成し、以前に報告された結果（LOLAオートエンコーダーで0.93、CNNオートエンコーダーで0.89）を上回った。
ナーブな質量非相関VAEは、一部の異常サンプルに対して高い尤度を割り当ててしまうため、異常検出性能を維持できなかった。
t-SNE可視化では、βを大きくするほど潜在表現がより凝集する傾向を示し、高値のβでは正則化が強まり、分離性が低下することが示された。
OE-VAEは、ホールドアウトされた信号クラス（例：ヒッグスおよびトップジャケット）において、質量非相関付き教師ありW/QCD分類器を著しく上回った。特に低信号効率領域で顕著な優位性を示した。
Multi-Scale Score (MSS) およびEMDベースの異常スコアは優れた性能を示し、MSSは複数の信号タイプで最高のAUCを達成した。
提案手法は、ジャケット質量と異常スコアの非相関化に成功するとともに、非QCD信号への高い感受性を維持し、効果的なバンプハンティング風の探索を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。