Skip to main content
QUICK REVIEW

[論文レビュー] The RooStats Project

L. Moneta, Kevin Belasco|arXiv (Cornell University)|Sep 6, 2010
Particle physics theoretical and experimental studies参考文献 7被引用数 151
ひとこと要約

RooStatsプロジェクトは、RooFitとROOTに基づくC++ベースのオープンソース統計フレームワークを提供し、大型ハドロン衝突型加速器(LHC)データの高度な統計的解析を統合的かつ標準化する。頻度主義的、ベイズ的、尤度に基づく手法を一貫して再利用可能なインターフェースで提供し、複数のパラメータとシステムティック不確実性を含む複雑なモデルにおいても、信頼区間推定、仮説検定、結果の組み合わせを可能にする。

ABSTRACT

RooStats is a project to create advanced statistical tools required for the analysis of LHC data, with emphasis on discoveries, confidence intervals, and combined measurements. The idea is to provide the major statistical techniques as a set of C++ classes with coherent interfaces, so that can be used on arbitrary model and datasets in a common way. The classes are built on top of the RooFit package, which provides functionality for easily creating probability models, for analysis combinations and for digital publications of the results. We will present in detail the design and the implementation of the different statistical methods of RooStats. We will describe the various classes for interval estimation and for hypothesis test depending on different statistical techniques such as those based on the likelihood function, or on frequentists or bayesian statistics. These methods can be applied in complex problems, including cases with multiple parameters of interest and various nuisance parameters.

研究の動機と目的

  • LHCデータ解析における標準化され、再利用可能な統計ツールの増大するニーズに対応すること、特に発見探索、信頼区間推定、結果の組み合わせに関して。
  • 過去の高エネルギー物理学(HEP)実験で用いられた一時的で分析固有の統計コードの限界を克服し、汎用的かつ拡張可能なソフトウェアフレームワークを構築すること。
  • 同じモデルとデータセットに対して、頻度主義的、ベイズ的、尤度に基づく多様な統計的手法を、共通のソフトウェアインターフェースを通じて一貫して適用可能にする。
  • 複数の注目パラメータとノイズパラメータ(系統的不確実性を含む)を含む複雑な解析を、多様な統計的手法で一貫して行えるようにすること。
  • 標準化されたモデルとデータの保存方法(ROOTワークスペース内)を用いることで、実験間・チャネル間の統計的結果の組み合わせを可能にし、デジタル公開と再現可能な解析を促進すること。

提案手法

  • 高水準のオブジェクト指向C++インターフェースを備えたRooFitフレームワークを活用し、確率モデルと尤度関数を定義する。
  • 統計ツールを再利用可能なC++クラスとして実装し、一貫したインターフェースを提供することで、統計的手法とモデル定義を分離する。
  • RooWorkspaceクラスを用いて、完全なモデルとデータをシリアル化・共有可能とし、再現可能で合成可能な解析ワークフローを実現する。
  • HypoTestInverterクラスを用いて、パラメータ値のスキャンを通じてテスト統計を評価し、ハイブリッド頻度主義的・ベイズ的手法により信頼区間と除外限界を計算する。
  • RooStats::SPlotのようなユーティリティを導入し、信号とバックグラウンドの分離を可能にするとともに、正定値多項式補正を用いた系統的不確実性のモデリング(BernsteinCorrection)を実装する。
  • テキストベースのモデル記述からモデル作成を簡素化する高水準のファクトリーツール(例:HLFactory)を提供する。

実験結果

リサーチクエスチョン

  • RQ1LHCデータの統計的解析を、実験や分析タイプを問わず、再利用可能で合成可能かつ標準化可能にするにはどうすればよいか?
  • RQ2頻度主義的、ベイズ的、尤度に基づく統計的手法を、1つのソフトウェアフレームワーク内で効果的に統合する最良の方法は何か?
  • RQ3複数の注目パラメータとノイズパラメータを含む複雑なモデルを、多様な統計的手法で一貫して解析するにはどうすればよいか?
  • RQ4複数の実験や探索チャネルからの統計的結果をデジタル公開し、再現可能に組み合わせるためのインfra構築にはどのようなものが必要か?
  • RQ5系統的不確実性を柔軟かつ数値的に安定した方法で統計モデルに体系的に組み込むにはどうすればよいか?

主な発見

  • RooStatsは、頻度主義的、ベイズ的、尤度に基づく統計的手法を一括してサポートする統合的かつ拡張可能なフレームワークを実現し、一貫したC++インターフェースを提供した。
  • HypoTestInverterを用いることで、パラメータ値のスキャンを通じてテスト統計を評価し、所定の信頼水準における閾値を特定することで、信頼区間と除外限界を計算可能となった。
  • RooWorkspaceの使用により、モデルとデータの完全な永続化がROOTファイル内で実現され、再現可能な解析、結果の組み合わせ、統計的結果のデジタル公開が可能になった。
  • RooStats::SPlotユーティリティにより、拡張最大尤度フィットにおける信号・バックグラウンドの分解が可能となり、制御変数の分布による妥当性の検証も可能となった。
  • BernsteinCorrectionユーティリティは、正定値多項式基底関数を用いた補正により、確率密度関数への系統的変動の数値的に安定した組み込みを実現した。
  • このフレームワークは、ATLASおよびCMS両実験でプロダクション解析に採用されており、ROOTのディストリビューションに統合されており、主要な計算機器用の例マクロが提供されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。