Skip to main content
QUICK REVIEW

[논문 리뷰] A Widely Applicable Bayesian Information Criterion

Sumio Watanabe|arXiv (Cornell University)|2012. 08. 31.
Markov Chains and Monte Carlo Methods참고 문헌 27인용 수 783
한 줄 요약

이 논문은 기존 BIC가 실패하는 특이 통계 모델에서 베이즈 자유 에너지를 추정하기 위한 널리 적용 가능한 베이지안 정보 기준(WBIC)을 제안한다. WBIC는 역온도 $1/\log n$에서의 사후분포에 대해 로그우도를 평균화하는 방식으로 작동하며, 진정한 분포의 지식이나 실제 로그정규화계수차이( RLCT)의 이론적 계산이 필요 없이도 점차적으로 베이즈 자유 에너지와 일치시킨다. 이는 정규 모델과 특이 모델 모두에 일반적으로 적용 가능하다.

ABSTRACT

A statistical model or a learning machine is called regular if the map taking a parameter to a probability distribution is one-to-one and if its Fisher information matrix is always positive definite. If otherwise, it is called singular. In regular statistical models, the Bayes free energy, which is defined by the minus logarithm of Bayes marginal likelihood, can be asymptotically approximated by the Schwarz Bayes information criterion (BIC), whereas in singular models such approximation does not hold. Recently, it was proved that the Bayes free energy of a singular model is asymptotically given by a generalized formula using a birational invariant, the real log canonical threshold (RLCT), instead of half the number of parameters in BIC. Theoretical values of RLCTs in several statistical models are now being discovered based on algebraic geometrical methodology. However, it has been difficult to estimate the Bayes free energy using only training samples, because an RLCT depends on an unknown true distribution. In the present paper, we define a widely applicable Bayesian information criterion (WBIC) by the average log likelihood function over the posterior distribution with the inverse temperature $1/\log n$, where $n$ is the number of training samples. We mathematically prove that WBIC has the same asymptotic expansion as the Bayes free energy, even if a statistical model is singular for and unrealizable by a statistical model. Since WBIC can be numerically calculated without any information about a true distribution, it is a generalized version of BIC onto singular statistical models.

연구 동기 및 목표

  • 피셔 정보 행렬이 정규미분형이 아닌 특이 통계 모델에서 BIC의 한계를 해결하기 위해.
  • 특이 모델 및 실현 불가능한 모델에서의 모델 선택을 위한 수치적으로 계산 가능한 기준을 개발하기 위해.
  • 진정한 분포의 지식이나 이론적 RLCT 값의 계산 없이도 베이즈 자유 에너지를 추정할 수 있도록 하기 위해.
  • 역온도 $1/\log n$를 기반으로 한 점근적 근사에 의해 BIC를 특이 모델로 일반화하기 위해.
  • 기존의 이론적 RLCT에 의존하거나 복잡한 샘플링을 요구하는 방법들에 비해 실용적이고 계산 가능성이 높은 대안을 제공하기 위해.

제안 방법

  • 역온도 $\beta = 1/\log n$인 사후분포 하에서 기대 로그우도로 WBIC를 정의한다.
  • 역온도 $\beta = 1/\log n$에서의 평균 로그우도 $\mathbb{E}_w^{\beta}[L_n(w)]$를 기준으로 사용한다.
  • WBIC가 정규 모델과 특이 모델 모두에서 점차적으로 베이즈 자유 에너지 $\mathcal{F}$와 일치함을 증명한다.
  • WBIC의 점근적 전개가 진정한 분포가 실현 불가능한 경우에도 베이즈 자유 에너지의 전개와 동일함을 확립한다.
  • 특히 실수 로그정규화계수차이(RLCT)와 관련된 대수기하학의 결과를 활용하여 점근적 동치성을 정당화한다.
  • 진정한 분포의 지식이나 이론적 RLCT 계산이 필요 없음을 통해 실용적인 구현이 가능함을 보여준다.

실험 결과

연구 질문

  • RQ1BIC가 실패하는 특이 통계 모델에서 작동하는 모델 선택 기준을 개발할 수 있는가?
  • RQ2진정한 분포의 지식이나 RLCT의 이론적 계산 없이도 베이즈 자유 에너지를 추정할 수 있는가?
  • RQ3역온도 $\beta = 1/\log n$에서의 평균 로그우도가 특이 모델에서 베이즈 자유 에너지와 점근적으로 동치되는가?
  • RQ4통계 모델의 짝수/홀수 성질이 WBIC의 점근적 행동에 미치는 영향은 무엇인가?
  • RQ5진정한 분포가 모델 클래스 외부에 있는 실현 불가능한 모델에서 WBIC를 효과적으로 사용할 수 있는가?

주요 결과

  • WBIC는 정규 모델과 특이 모델 모두에서 진정한 분포가 실현 불가능한 경우에도 점차적으로 베이즈 자유 에너지 $\mathcal{F}$와 일치한다.
  • WBIC의 점근적 전개는 베이즈 자유 에너지와 동일하며, 주요 항은 $nL_n(w_0) + \lambda \log n$로 표현되며, 여기서 $\lambda$는 RLCT이다.
  • WBIC는 진정한 분포의 지식이나 RLCT의 이론적 계산이 필요 없어 실용적인 수치적 추정이 가능하다.
  • 다양한 통계 조건에서 안정성이 뛰어나 기존 방법보다 계산 비용과 적용 가능성 면에서 뛰어나다.
  • 통계 모델의 짝수/홀수 성질은 점근적 전개의 변동 항에 영향을 미치며, 홀수 성질의 경우 $\beta = 1/\log n$ 조건에서 변동 항이 0이 된다.
  • WBIC는 중요도 샘플링이나 이중단계 방법의 대안으로서 낮은 계산 비용과 함께 이론적 RLCT 값이 필요 없이 효과적으로 활용될 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.