Skip to main content
QUICK REVIEW

[論文レビュー] Statistical uncertainty analysis for small-sample, high log-variance data: Cautions for bootstrapping and Bayesian bootstrapping

Barmak Mostofian, Daniel M. Zuckerman|arXiv (Cornell University)|Jun 5, 2018
Statistical Methods and Inference参考文献 25被引用数 4
ひとこと要約

この論文は、小標本・高対数分散データにおける標準ブートストラップの重大なバイアスを特定する—対数空間における信頼区間の下限が不自然に低くなること—同時に、ベイジアンブートストラップがより信頼性の高い不確実性推定を提供することを示している。著者らは、データが複数のオーダーの大きさをカバーし、物理的制約で正の区間のみを要する分子シミュレーションにおける速度定数の推定に、標準ブートストラップへの過度な依存を警告している。

ABSTRACT

Recent advances in molecular simulations allow the evaluation of previously unattainable observables, such as rate constants for protein folding. However, these calculations are usually computationally expensive and even significant computing resources may result in a small number of independent estimates spread over many orders of magnitude. Such small-sample, high "log-variance" data are not readily amenable to analysis using the standard uncertainty (i.e., "standard error of the mean") because unphysical negative limits of confidence intervals result. Bootstrapping, a natural alternative guaranteed to yield a confidence interval within the minimum and maximum values, also exhibits a striking systematic bias of the lower confidence limit in log space. As we show, bootstrapping artifactually assigns high probability to improbably low mean values. A second alternative, the Bayesian bootstrap strategy, does not suffer from the same deficit and is more logically consistent with the type of confidence interval desired. The Bayesian bootstrap provides uncertainty intervals that are more reliable than those from the standard bootstrap method, but must be used with caution nevertheless. Neither standard nor Bayesian bootstrapping can overcome the intrinsic challenge of under-estimating the mean from small-size, high log-variance samples. Our conclusions are based on extensive analysis of model distributions and re-analysis of multiple independent atomistic simulations. Although we only analyze rate constants, similar considerations will apply to related calculations, potentially including highly non-linear averages like the Jarzynski relation.

研究の動機と目的

  • 分子シミュレーションで一般的な小標本・高対数分散データに対する信頼区間の信頼性を評価すること。
  • 標準ブートストラップが対数空間で物理的に不適切で、過度に低い下限信頼区間を生じる系統的バイアスを同定すること。
  • 正のスケーリングが強く、複数のオーダーの大きさを有するデータにおける不確実性推定において、標準ブートストラップとベイジアンブートストラップの性能を比較すること。
  • 計算バイオフィジックス分野における速度定数や同様の非線形観測量の不確実性評価に向けた指針を提供すること。

提案手法

  • 著者らは、実際の分子シミュレーションデータを模倣するため、対数正規分布、一様分布、指数分布の3つの連続確率分布から、対数分散を変化させた合成データを生成した。
  • 複数の標本サイズ(n = 5 から 50)に対して、標準ブートストラップとベイジアンブートストラップを用いて、それぞれ95%信頼区間と信用区間を推定した。
  • 実際のカバレッジ(区間が真の平均を含む頻度)と、区間の下限におけるバイアスを評価するための半最大累積分布関数(CDF)比を用いて性能を評価した。
  • 重み付きエンsemble(WE)シミュレーションの実データを再分析し、ブートストラップとベイジアンブートストラップの区間を比較した。
  • 特に標準ブートストラップが下限を過小評価する傾向を評価するため、対数空間変換を用いた。
  • データ分布の特徴とブートストラップ性能への影響を評価するため、対数標準偏差(σ_log(x))、歪度、過剰尖度などの統計的指標を計算した。

実験結果

リサーチクエスチョン

  • RQ1小標本・高対数分散データ、特に対数空間において、標準ブートストラップは信頼区間を信頼できるものとして提供できるか?
  • RQ2高分散・複数オーダーの大きさを有するデータセットにおいて、標準ブートストラップの下限信頼区間は真の平均と比べてどうなるか?
  • RQ3ベイジアンブートストラップは、このようなデータにおいて観察された標準ブートストラップの系統的バイアスを緩和できるか?
  • RQ4両手法は、小標本・高対数分散状況において、真の平均をどの程度過小評価しているか?
  • RQ5標準ブートストラップとベイジアンブートストラップの区間の実際のカバレッジ率は、それぞれの名目上の95%信頼水準と比べてどうか?

主な発見

  • 名目上の95%信頼区間に対して、標準ブートストラップは実際のカバレッジが44.2%から92.3%にとどまり、顕著なカバレッジ不足を示している。
  • 標準ブートストラップの区間下限は、対数空間で系統的に下方にバイアスがかかることが判明し、複数のオーダーの大きさにわたって、不実在な低い平均値に高い確率を割り当てている。
  • ベイジアンブートストラップは、実際のカバレッジ(71.4%~91.8%)がより良く、下限におけるバイアスも著しく小さく、半最大CDF比は標準ブートストラップの0.19に対して1.0を示した。
  • 実際のタンパク質折りたたみ速度定数のデータでは、システムAにおいて標準ブートストラップの95%信頼区間下限は真の平均の10^17倍も小さく、一方でベイジアンブートストラップは真の値にはるかに近い結果を示した。
  • 両手法とも、小標本・高対数分散サンプルにおける平均の本質的過小評価を完全に是正できないが、ベイジアンブートストラップはより論理的で信頼性が高い。
  • 本研究は、両手法が小標本・高対数分散データにおける平均過小評価の根本的課題を克服できないことを確認したが、ベイジアンブートストラップがより妥当な選択であると結論づけた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。