Skip to main content
QUICK REVIEW

[論文レビュー] A Widely Applicable Bayesian Information Criterion

Sumio Watanabe|arXiv (Cornell University)|Aug 31, 2012
Markov Chains and Monte Carlo Methods参考文献 27被引用数 783
ひとこと要約

本稿では、特異統計モデル(従来のBICが失敗する分野)におけるベイズ自由エネルギーの推定のための、Widely Applicable Bayesian Information Criterion(WBIC)を提案する。WBICは、逆温度 $1/\log n$ における事後分布での対数尤度の平均を用いる。WBICは真の分布の知識や理論的RLCTの計算を必要とせず、ベイズ自由エネルギーと漸近的に一致するため、正則モデルおよび特異モデルの両方に対して普遍的に適用可能である。

ABSTRACT

A statistical model or a learning machine is called regular if the map taking a parameter to a probability distribution is one-to-one and if its Fisher information matrix is always positive definite. If otherwise, it is called singular. In regular statistical models, the Bayes free energy, which is defined by the minus logarithm of Bayes marginal likelihood, can be asymptotically approximated by the Schwarz Bayes information criterion (BIC), whereas in singular models such approximation does not hold. Recently, it was proved that the Bayes free energy of a singular model is asymptotically given by a generalized formula using a birational invariant, the real log canonical threshold (RLCT), instead of half the number of parameters in BIC. Theoretical values of RLCTs in several statistical models are now being discovered based on algebraic geometrical methodology. However, it has been difficult to estimate the Bayes free energy using only training samples, because an RLCT depends on an unknown true distribution. In the present paper, we define a widely applicable Bayesian information criterion (WBIC) by the average log likelihood function over the posterior distribution with the inverse temperature $1/\log n$, where $n$ is the number of training samples. We mathematically prove that WBIC has the same asymptotic expansion as the Bayes free energy, even if a statistical model is singular for and unrealizable by a statistical model. Since WBIC can be numerically calculated without any information about a true distribution, it is a generalized version of BIC onto singular statistical models.

研究の動機と目的

  • フィッシャー情報行列が正定値でない特異統計モデルにおいてBICが機能しないという限界を解消すること。
  • 特異的かつ非現実的(unrealizable)なモデルにおけるモデル選択のための数値的に計算可能な基準を開発すること。
  • 真の分布の知識や理論的RLCT値の計算なしに、ベイズ自由エネルギーを推定可能とすること。
  • 逆温度 $1/\log n$ を用いた漸近的近似に基づき、BICを特異モデルに一般化すること。
  • 理論的RLCT値の計算や複雑なサンプリングに依存する従来の手法の代替として、実用的かつ計算可能である代替手法を提供すること。

提案手法

  • WBICを、逆温度 $\beta = 1/\log n$ の下での事後分布における期待対数尤度として定義する。
  • 逆温度 $\beta = 1/\log n$ における平均対数尤度 $\mathbb{E}_w^{\beta}[L_n(w)]$ を基準として用いる。
  • WBICが正則モデルおよび特異モデルの両方において、ベイズ自由エネルギー $\mathcal{F}$ と漸近的に一致することを証明する。
  • 真の分布が非現実的であっても、WBICの漸近的展開がベイズ自由エネルギーのそれと一致することを確立する。
  • 代数幾何学、特に実対数正則特異度(RLCT)の結果を活用し、漸近的同等性を正当化する。
  • WBICが真の分布の知識や理論的RLCTの計算を必要とせず、実用的な実装が可能であることを示す。

実験結果

リサーチクエスチョン

  • RQ1BICが失敗する特異統計モデルにおいても機能するモデル選択基準を開発することは可能か?
  • RQ2真の分布の知識や理論的RLCTの計算なしに、ベイズ自由エネルギーを推定することは可能か?
  • RQ3逆温度 $\beta = 1/\log n$ における平均対数尤度は、特異モデルにおいてベイズ自由エネルギーと漸近的に同等の近似を提供できるか?
  • RQ4統計モデルの偶奇性(parity)は、WBICの漸近的挙動にどのように影響を与えるか?
  • RQ5真の分布がモデルクラスの外にある非現実的モデルにおいても、WBICは効果的に使用可能か?

主な発見

  • WBICは、真の分布が非現実的であっても、正則モデルおよび特異モデルの両方において、ベイズ自由エネルギー $\mathcal{F}$ と漸近的に一致する。
  • WBICの漸近的展開は、ベイズ自由エネルギーのそれと同一であり、主項 $nL_n(w_0) + \lambda \log n$ を持つ。ここで $\lambda$ はRLCTである。
  • WBICは真の分布の知識や理論的RLCTの計算を必要とせず、実用的な数値的推定が可能である。
  • 本手法はさまざまな統計的条件下でも安定しており、計算コストと適用範囲の面で従来の手法を上回る。
  • 統計モデルの偶奇性は、漸近的展開におけるフラクチュエーション項に影響を与え、奇数のパリティでは $\beta = 1/\log n$ の場合にフラクチュエーションがゼロになる。
  • WBICは重要度サンプリングや二段階法の代替として実用的であり、計算コストが低く、理論的RLCT値の計算を必要としない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。