QUICK REVIEW

[論文レビュー] Likelihood-free inference via classification

Michael U. Gutmann, Ritabrata Dutta|arXiv (Cornell University)|Jul 18, 2014

Markov Chains and Monte Carlo Methods参考文献 1被引用数 23

ひとこと要約

本稿では、計算的に扱いにくい生成モデルにおける統計的推論を、シミュレートされたデータと観測データの間の二値分類問題に定式化する、尤度フリー推論フレームワークを提案する。異なるパラメータ下で生成されたデータと観測データを区別できる分類器を訓練することで、分類精度がデータの不一致度を示し、明示的な尤度計算なしに効率的な点推定およびベイズ推論を可能にする。主な貢献は、現代の分類アルゴリズムの全能力を活用した、頑健でスケーラブルな手法の構築である。

ABSTRACT

Increasingly complex generative models are being used across disciplines as they allow for realistic characterization of data, but a common difficulty with them is the prohibitively large computational cost to evaluate the likelihood function and thus to perform likelihood-based statistical inference. A likelihood-free inference framework has emerged where the parameters are identified by finding values that yield simulated data resembling the observed data. While widely applicable, a major difficulty in this framework is how to measure the discrepancy between the simulated and observed data. Transforming the original problem into a problem of classifying the data into simulated versus observed, we find that classification accuracy can be used to assess the discrepancy. The complete arsenal of classification methods becomes thereby available for inference of intractable generative models. We validate our approach using theory and simulations for both point estimation and Bayesian inference, and demonstrate its use on real data by inferring an individual-based epidemiological model for bacterial infections in child care centers.

研究の動機と目的

尤度関数が計算的に扱いにくい、もしくは存在しない生成モデルにおける統計的推論の課題に対処すること。
主観的で専門家が選択した要約統計量や距離関数に依存する従来の尤度フリー手法の限界を克服すること。
データの不一致度を測るための分類技術の全般的なアーマリーを活用する汎用的推論フレームワークの開発。
分類ベースの不一致度指標を用いて、複雑なシミュレータベースモデルにおける頻度主義的およびベイズ的推論を可能にすること。
疫学的モデルを含む合成的および実世界のデータにおいて、本手法の頑健性と精度を実証すること。特に、複雑な潜在構造を持つモデルを想定。

提案手法

尤度フリー推論問題を、観測データと特定のパラメータ値のもとでシミュレートされたデータを区別する二値分類タスクに変換する。
訓練済みモデルの分類精度を、シミュレート済みデータと観測データの間の不一致度指標として用い、高い精度はより大きな相違を示す。
分類精度の推定に、幅広い分類アルゴリズム（例：ランダムフォレスト、ニューラルネットワーク、SVM）を用い、柔軟性と適応性を確保する。
ベイズ推論の文脈では、分類精度をABCアルゴリズムにおける尤度の代理として用い、逐次モンテカルロを用いた事後分布の近似を可能にする。
事前知識が利用可能な場合には、専門家が提示する要約統計量を特徴量として分類器に組み込む。
高次元データ環境では、ランダム射影や特徴選択を用いて一般化性能を向上させ、次元削減を実現する。

実験結果

リサーチクエスチョン

RQ1シミュレート済みデータと観測データの間の分類精度は、尤度フリー推論において信頼性が高く、データ駆動型の不一致度指標として有効であるか？
RQ2従来の要約統計量や距離関数と比較して、分類ベースの不一致度指標は推定精度と頑健性において優れているか？
RQ3複雑なシミュレータベースモデルにおいて、分類ベース推論がどれほど正確な点推定および事後分布近似を達成できるか？
RQ4特徴工学を用いて専門知識を効果的に統合できるか、また、不適切または不完全な要約統計量に対しても頑健であるか？
RQ5個別主体型の感染症シミュレーションのような、複雑で高次元的、もしくは潜在構造を持つ実世界データにおいて、本手法はどの程度の性能を示すか？

主な発見

シミュレート済みデータと観測データの間の分類精度は、有効でスケーラブルかつ適応可能な不一致度指標を提供し、多くの場合、従来の要約統計量を上回る性能を示す。
ガウス分布、ベルヌーイ分布、ポisson分布、移動平均過程、ARCH過程など多様なモデルに対して、相対誤差が30回のABC反復後に事後平均および標準偏差で10％未満に抑えられ、正確な事後分布推定が達成された。
乳児保育施設における細菌感染伝播の個別主体型モデルを用いた実データでは、分類器ベースのABC手法が、ベースライン手法と比較して、より集中した事後分布を生成し、専門家による検証結果に近づいた。特にランダム特徴射影を用いた場合に顕著だった。
限定的な専門家要約統計量しか利用できない状況でも、分類器ベースのアプローチは、追加の識別的特徴を学習することでその非最適性を補い、事後分布の精度を回復させた。
分類器におけるランダム射影の使用は収束性を向上させ、事後分布の分散を低減させ、生データ特徴量を用いた場合と比較して、より安定的かつ精密な推論を実現した。
連続的、離散的、二値的、時系列データを含む多様なデータタイプにおいて、最小限のチューニングで本手法は頑健性とスケーラビリティを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。