QUICK REVIEW

[논문 리뷰] Solving Key Challenges in Collider Physics with Foundation Models

V. M. Mikuni, Benjamin Nachman|arXiv (Cornell University)|2024. 04. 24.

Computational Physics and Python Applications인용 수 5

한 줄 요약

OmniLearn은 제트에 대한 대규모 감독형 기초 모델을 학습시키며, 일단 학습되면 데이터 세트, 탐지기, 충돌 시스템 전반에 걸친 여러 다운스트림 제트-물리 태스크를 태스크별 사전학습 없이도 개선하고 가속화하며 가능하게 한다.

ABSTRACT

Foundation Models are neural networks that are capable of simultaneously solving many problems. Large Language Foundation Models like ChatGPT have revolutionized many aspects of daily life, but their impact for science is not yet clear. In this paper, we use a new Foundation Model for hadronic jets to solve three key challenges in collider physics. In particular, we show how experiments can (1) save significant computing power when developing reconstruction algorithms, (2) perform a complete uncertainty quantification for high-dimensional measurements, and (3) search for new physics with model agnostic methods using low-level inputs. In each case, there are significant computational or methodological challenges with current methods that limit the science potential of deep learning algorithms. By solving each problem, we take jet Foundation Models beyond proof-of-principle studies and into the toolkit of practitioners.

연구 동기 및 목표

제트에 대한 일반적이고 이전 가능한 제트 표현을 학습하기 위해 제트를 대규모 감독 학습으로 활용하는 기초 모델 접근 방식의 동기를 부여한다.
단일 OmniLearn 백본이 원래 학습 태스크를 넘어 여러 다운스트림 태스크를 개선한다는 것을 입증한다.
제트 유형, 탐지기 시뮬레이션, 충돌 시스템 전반에 걸친 일반화와 조건부 생성 및 약한 감독 학능력을 가능하게 한다.
실제 충돌기 분석에의 적용 가능성과 학습 효율성 향상을 강조한다.

제안 방법

제트를 포인트 클라우드로 표현하고 포인트-엣지 트랜스포머(PET) 백본을 구축한다.
시간 조건부 확산 입력을 갖춘 다중 클래스 제트 분류 태스크(10개 클래스)에서 공유 표현을 학습한다.
분류기 헤드와 생성기 헤드를 포함한 작업 특화 헤드와 다운스트림 태스크를 위한 확산 조건화 메커니즘을 부착한다.
데이터세트 간 및 조건부 라벨에 대한 강건성을 촉진하기 위해 피처 드롭과 분류기 없는 가이드의 계층 드롭을 사용한다.
다중 손실 항을 결합한다: 분류를 위한 교차 엔트로피, 확산 스타일 생성을 위한 속도 기반 손실, 학습 정규화를 위한 스미어 항.
확산-시간 조건 임베딩과 LayerScale를 이용한 128-GPU 설정으로 JetClass의 1억 제트를 학습한다.

Figure 1: Neural network architecture used to train OmniLearn . The main neural network blocks of the architecture are shown in the further left with detailed architecture design shown for each block in the right. See the text for more details.

실험 결과

연구 질문

RQ1다른 제트 유형, 탐지기 시뮬레이션, 충돌 시스템 전반에 걸쳐 감독형 대규모 기초 모델이 일반화할 수 있는가?
RQ2단일 OmniLearn 백본을 하나의 태스크에서 사전 학습시키면 다른 제트-물리 태스크(분류, 생성, 가능도 비율 추정, 이상 탐지)에서 속도나 성능이 향상되는가?
RQ3다양한 조건부 요건을 가진 신규 다운스트림 데이터세트로 OmniLearn을 전이할 때 학습 효율성 향상 및 성능 변화는 어떠한가?
RQ4데이터세트 간의 조건부 생성 및 재가중/언포딩 맥락에서 OmniLearn의 성능은 어떤가?
RQ5제트 물리에서 강건한 약한 감독 및 공명 이상 탐지를 가능하게 할 수 있는가?

주요 결과

OmniLearn은 탑쿼크 태깅 및 쿼크/글루온 데이터세트에서 분류기를 처음부터 학습시키는 것보다 더 나은 성능(AUC 및 정확도)을 보인다.
CMS Open Data의 쿼크/글루온 태깅에서 OmniLearn은 PET 분류기와 비슷하거나 다소 우수한 성능을 보이고 수렴 속도가 더 빠르다.
ATLAS 탑 태깅에서 OmniLearn은 최첨단 성능을 달성하고, 더 적은 예제로도 전체 데이터세트에서 학습된 모델과 유사하거나 우수한 성능을 보일 수 있다.
OmniLearn은 여러 데이터세트에서 더 빠르게 수렴하며, 학습 시간 기준으로 종종 2~3.5배의 이점을 보인다.
DIS(전자-양자프 제트)에서 OmniLearn은 비-OmniLearn 베이스라인과 비슷한 성능을 유지하되 더 빠르게 수렴하여 시스템 간 일반화를 보여준다.
OmniLearn은 조건부 생성 연구(JetNet)를 가능하게 하고, 공유 백본을 활용한 입자 및 제트 수준 생성에서 경쟁력 있는 성능을 보인다.

Figure 2: Validation loss curves obtained in the top quark tagging (left) and quark/ gluon (rights) datasets. The OmniLearn validation loss is compared with the PET classifier trained from scratch.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.