QUICK REVIEW

[論文レビュー] Jet Diffusion versus JetGPT -- Modern Networks for the LHC

Anja Butter, Nathan Huetsch|arXiv (Cornell University)|May 17, 2023

Gaussian Processes and Bayesian Inference被引用数 18

ひとこと要約

本論文は、LHC物理シミュレーションのための2つの拡散モデルと自己回帰型トランスフォーマを導入し、不確実性制御のためのベイズ変異を提供し、それらをZ+jetsイベント上の正規化フローと比較します。

ABSTRACT

We introduce two diffusion models and an autoregressive transformer for LHC physics simulations. Bayesian versions allow us to control the networks and capture training uncertainties. After illustrating their different density estimation methods for simple toy models, we discuss their advantages for Z plus jets event generation. While diffusion networks excel through their precision, the transformer scales best with the phase space dimensionality. Given the different training and evaluation speed, we expect LHC physics to benefit from dedicated use cases for normalizing flows, diffusion models, and autoregressive transformers.

研究の動機と目的

第一原理に基づく高速・高精度・柔軟なLHCシミュレーションの動機づけ。
位相空間密度推定のための3つの最新生成ネットワークアーキテクチャの開発と評価。
トレーニングとモデル不確実性を定量化するためにベイズ的定式化を組み込む。
玩具問題とZ+jetsのLHCイベントに対して、拡散モデルと自己回帰トランスフォーマをINNと比較評価する。
正規化フロー、拡散モデル、自己回帰トランスフォーマが優れるシナリオを強調する。

提案手法

離散時間と連続時間の進化を持つ2つの拡散モデル（DDPMとConditional Flow Matching）を導入する。
次元スケーリングを改善した自己回帰型トランスフォーマ（JetGPT）を提案する。
密度推定の不確実性を定量化するために3つのネットワーク全てのベイズ版を開発する。
DDPM（Eq. 17/11/13）とCFMs（Eq. 34/37）の損失関数を導出し、訓練/サンプリング手順を概説する。
玩具モデルとLHC Z+jetsイベントの訓練設定とハイパーパラメータを示す（Table 1）。

Figure 8 : Ramp distribution from the DDPM. We show the learned density and its B-DDPM uncertainty (left) as well as the absolute and relative uncertainties with a range given by 10 independent trainings (right). We use $\delta=|\text{Model}-\text{Truth}|/\text{Truth}$ .

実験結果

リサーチクエスチョン

RQ1拡散ベースの生成モデルはLHC位相空間密度推定において可逆ニューラルネットワーク(INN)の精度に匹敵できるか？
RQ2離散DDPM、連続時間CFMs、自己回帰トランスフォーマは位相空間の次元とともにどのようにスケールするか？
RQ3LHCシミュレーションにおける正規化フロー、拡散モデル、自己回帰トランスフォーマの訓練・サンプリング速度のトレードオフは？
RQ4ベイズ的不確実性定量化はこれらのネットワークの密度推定の信頼性にどう影響するか？
RQ5Z+jets生成のようなLHC類似タスクにおいて、各アーキテクチャに現れる専用の適用ケースはどれか？

主な発見

拡散ネットワークはLHC類似の位相空間における密度推定で高精度を提供する。
自己回帰トランスフォーマは位相空間次元が高くなるほどスケールが良好である。
3つのネットワークのベイズ版は学習した密度に対する不確実性定量化を提供する。
拡散モデルはINNやVAE/GANと比べてサンプリング時間が長くなるが、尤度ベースの訓練を強力に提供する。
CFMはサンプル生成のためにODEを解くことで全単射風の写像を提供する。
本論文は玩具問題とZ+jetsイベント上で三モデルをベンチマークし、長所と適用適合を比較する。

Figure 9 : Gaussian ring distribution from the DDPM. We show the learned density and its B-DDPM uncertainty (left) as well as the absolute and relative uncertainties with a range given by 10 independent trainings (right).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。