QUICK REVIEW

[논문 리뷰] Variational Autoencoders for Anomalous Jet Tagging

Taoli Cheng, J-F. Arguin|arXiv (Cornell University)|2020. 07. 03.

Anomaly Detection Techniques and Applications참고 문헌 40인용 수 28

한 줄 요약

이 논문은 LHC에서 비감독적 이상 잔여물 탐지에 대해 저수준의 잔여물 구성요소를 입력으로 사용하여 비QCD 신호(예: 톰 및 W 잔여물)를 탐지하는 이상치 노출 변동형 오토인코더(OE-VAE)를 제안한다. 훈련 중 이상치 샘플을 주입함으로써 OE-VAE는 이상 탐지 성능을 향상시키고 잔여물 질량과 이상도 점수 간의 상관관계를 감소시켜, 톰 잔여물에서 AUC = 0.954를 달성하며, 표준 VAE 및 질량-상관관계 제거된 지도 학습 분류기보다도 보다 뛰어난 성능을 보였다.

ABSTRACT

We present a detailed study on Variational Autoencoders (VAEs) for anomalous jet tagging at the Large Hadron Collider. By taking in low-level jet constituents' information, and training with background QCD jets in an unsupervised manner, the VAE is able to encode important information for reconstructing jets, while learning an expressive posterior distribution in the latent space. When using the VAE as an anomaly detector, we present different approaches to detect anomalies: directly comparing in the input space or, instead, working in the latent space. In order to facilitate general search approaches such as bump-hunt, mass-decorrelated VAEs based on distance correlation regularization are also studied. We find that the naive mass-decorrelated VAEs fail at maintaining proper detection performance, by assigning higher probabilities to some anomalous samples. To build a performant mass-decorrelated anomalous jet tagger, we propose the Outlier Exposed VAE (OE-VAE), for which some outlier samples are introduced in the training process to guide the learned information. OE-VAEs are employed to achieve two goals at the same time: increasing sensitivity of outlier detection and decorrelating jet mass from the anomaly score. We succeed in reaching excellent results from both aspects. Code implementation of this work can be found at https://github.com/taolicheng/VAE-Jet

연구 동기 및 목표

라벨이 부여된 신호 예제에 의존하지 않고 모델 독립적이고 데이터 기반의 접근 방식을 개발하여 잔여물 데이터에서 새로운 물리 신호를 탐지하는 것.
표준 VAE가 이상도 점수와 잔여물 질량 간의 상관관계를 감소시킬 때 탐지 성능을 유지하지 못하는 한계를 해결하는 것.
구조화된 잠재 표현을 가진 변동형 오토인코더를 사용하여 고차원의 잔여물 구성요소 데이터에서 비감독적 이상 탐지 성능을 향상시키는 것.
정규화 및 이상치 주입을 통해 질량-상관관계 제거된 이상도 점수를 구성함으로써 버블헌트 스타일의 탐색을 가능하게 하는 것.

제안 방법

QCD 잔여물 구성요소를 비감독적으로 훈련하여 정규화된 잠재 분포를 학습하고 최소한의 재구성 오차로 입력 특징을 재구성하는 VAE를 훈련한다.
입력 공간과 잠재 공간 양쪽에서 이상치를 탐지하기 위해 다중 이상도 점수(MSE, KL 발산, 지구 이동 거리(EMD), 다중 척도 점수(MSS))를 사용한다.
잔여물 질량과 이상도 점수 간의 상관관계 감소를 위해 거리 상관관계 정규화를 적용하여 질량-상관관계 제거 탐색을 지원한다.
새로운 이상치 노출 VAE(OE-VAE)를 도입하여 훈련 중에 비정상 샘플(예: W 및 톰 잔여물)의 부분 집합을 명시적으로 포함함으로써 모델의 일반화 및 강건성 향상을 이끈다.
재구성 오차와 KL 발산 간의 상호 균형을 조절하기 위해 β-VAE 목적함수를 최적화하고, β를 조정하여 재구성 정밀도와 잠재 공간 정규화 간의 트레이드오��을 제어한다.
보류된 신호 클래스에서 ROC 곡선과 AUC를 사용하여 OE-VAE의 성능을 표준 VAE, 지도 학습 DNN 분류기, 질량-상관관계 제거 기반 모델과 비교한다.

실험 결과

연구 질문

RQ1QCD 잔여물만으로 훈련된 VAE가 비감독적으로 비QCD 이상 잔여물 탐지에 효과적으로 작용할 수 있는가?
RQ2거리 상관관계 정규화가 VAE 기반 이상 탐지에서 잔여물 질량과 이상도 점수 간의 상관관계 감소에 성공적으로 기여하는가?
RQ3왜 단순한 질량-상관관계 제거 VAE는 탐지 성능을 유지하지 못하는가? 이 문제는 어떻게 수정할 수 있는가?
RQ4훈련 중에 이상치 샘플을 주입함으로써 VAE의 이상 탐지 민감도와 질량 상관관계 감소 성능을 향상시킬 수 있는가?
RQ5OE-VAE의 성능은 보류된 신호 클래스에서 질량-상관관계 제거된 지도 학습 분류기와 비교해 어떻게 되는가?

주요 결과

OE-VAE는 톰 잔여물 탐지 작업에서 AUC 0.954를 달성하여 이전에 보고된 결과(LOLA 오토인코더 0.93, CNN 오토인코더 0.89)를 초월한다.
단순한 질량-상관관계 제거 VAE는 일부 이상 샘플에 대해 더 높은 가능도를 부여함으로써 이상 탐지 성능을 떨어뜨려 성능 유지에 실패한다.
t-SNE 시각화 결과, β를 증가시킬수록 잠재 표현이 더 뭉쳐지는 경향을 보이며, 고값의 β에서 정규화가 강화되고 분리도가 감소함을 시사한다.
OE-VAE는 보류된 신호 클래스(예: 힉스 및 톰 잔여물)에서 질량-상관관계 제거된 지도 학습 W/QCD 분류기보다 뚜렷이 뛰어난 성능을 보이며, 특히 낮은 신호 효율 영역에서 두각을 나타낸다.
다중 척도 점수(MSS) 및 EMD 기반 이상도 점수는 뛰어난 성능을 보이며, MSS는 여러 신호 유형에서 최고의 AUC를 기록한다.
제안된 방법은 잔여물 질량과 이상도 점수 간의 분리에 성공적으로 기여하면서도 비QCD 신호에 대한 높은 민감도를 유지하여 효과적인 버블헌트 스타일의 탐색을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.