Skip to main content
QUICK REVIEW

[論文レビュー] Sampling with Riemannian Hamiltonian Monte Carlo in a Constrained Space

Yunbum Kook, Yin Tat Lee|arXiv (Cornell University)|Feb 3, 2022
Bioinformatics and Genomic Networks被引用数 20
ひとこと要約

CRHMCは制約をリーマン Hamiltonian Monte Carloに直接組み込み、条件数に依存しない高次元・ ill-conditioned な制約付き分布を効率的にサンプルし、疎性を保ち、混合を維持する。現実データセット上でCHRR/CDHRより桁違いに優れている。

ABSTRACT

We demonstrate for the first time that ill-conditioned, non-smooth, constrained distributions in very high dimension, upwards of 100,000, can be sampled efficiently $ extit{in practice}$. Our algorithm incorporates constraints into the Riemannian version of Hamiltonian Monte Carlo and maintains sparsity. This allows us to achieve a mixing rate independent of smoothness and condition numbers. On benchmark data sets in systems biology and linear programming, our algorithm outperforms existing packages by orders of magnitude. In particular, we achieve a 1,000-fold speed-up for sampling from the largest published human metabolic network (RECON3D). Our package has been incorporated into the COBRA toolbox.

研究の動機と目的

  • システム生物学や線形計画法で一般的な ill-conditioned な設定における制約付き高次元サンプリングの動機づけ。
  • 疎性を保持し、線形制約を respecting する制約付きリーマンHMC(CRHMC)を開発。
  • 現実的でスケーラブルな実装と理論的保証を提供。
  • ベンチマークとなる代謝ネットワークやLPデータセット上で、既存手法に対する実験的な速度向上を示す。

提案手法

  • 線形制約 Ax=b を満たすよう、制約空間のヌル空間と一致する範囲を持つ慎重に選択された M(x) を用いて、制約付きハミリアンを導入し RHMC を拡張する。
  • 疎性と制約充足性を保持するよう、局所計量 g(x) を用いた自己コルモントの障壁に基づく M(x)=Q(x)ᵀ g(x) Q(x) を定義する。
  • ディスクリタイズには隐的中点法を用い、シンプレクティックで可逆なダイナミクスを維持し、Metropolis補正を可能にする。
  • 擬似逆行列/擬似行列式を避けるために、M(x)† および log pdet M(x) を g(x) と Dc(x) の形で表現する効率的な式を導出する。スパース線形ソルバを活用。
  • 部分空間制約を簡略化して計算を減らし、疎なCholesky分解によってレバレッジスコアを効率的に計算し、密な更新を回避する。
  • c(x)=Ax−b の場合の特殊化更新を提供し、ダイナミクスをさらに簡略化し、密な行列演算を避ける。

実験結果

リサーチクエスチョン

  • RQ1非常に高次元で Ax=b かつ x ∈ K の下で e^−f(x) からサンプルを効率的に得られるか?
  • RQ2CRHMC は ill-conditioned で制約付き、非滑らかな設定において混合時間を条件数に依存させずに達成できるか?
  • RQ3制約付きハミルトニアン・ダイナミクス全体を通じて疎性と可行性を維持しつつ、膨大な計算コストを避けるにはどうすれば良いか?
  • RQ4実世界データセット(システム生物学、LP)に対して、既存の制約付きサンプラーと比較して実用的な速度向上とスケーラビリティをCRHMCはどの程度達成できるか?

主な発見

ModelVars (n)nnzCRHMCCHRRCDHR
ecoli952910.00980.03650.0022
cardiac_mit2202280.01000.00590.0005
Aci_D2185117580.42570.68840.2974
Aci_MR9599428590.96242.06680.5237
Abi_49176106929510.96081.93950.9622
Aci_20731109029460.15402.30141.1086
Aci_PHEA156146400.370112.06-
iAF1260238263684.43553687.2-
iJO1366258372844.160870.535.556
Recon1374287170.7184208.5-
Recon27440197912.611610445-
Recon3135434818731.11429211-
  • CRHMC は混合とサンプリング時間を二次以下で実現し、CHRR/CDHR が苦戦する非常に大規模なモデル(約10^5変数程度)にもスケールする。
  • 複数の実データセット(代謝ネットワークと NETLIB LPs)上で、CRHMC は混合速度と有効サンプルあたりの時間の双方で CHRR および CDHR を桁違いに上回る。
  • CRHMC は Recon3D のような大規模な制約付き多面体からのサンプリングを可能にし、最大公開モデルに比べて最大で約1000×の速度向上を示す。
  • 構造化された実験では、CRHMC は半百万次元のハイパーキューブとシンプレックス、10^5 次元のビルクホフ多面体までスケールし、実効サンプルサイズは妥当。
  • 均一性テストは、CRHMC が対象多面体上の均一分布に近いサンプルを生成することを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。