Skip to main content
QUICK REVIEW

[論文レビュー] Asymptotic Equivalence of Bayes Cross Validation and Widely Applicable Information Criterion in Singular Learning Theory

Sumio Watanabe|arXiv (Cornell University)|Apr 14, 2010
Machine Learning and Algorithms参考文献 46被引用数 2,337
ひとこと要約

単一の学習モデルにおいて、Bayes交差検証損失とWAICは確率変数として漸近的に一致し、それらの和とBayes一般化誤差の和は実対数正準閾値と特異構造に支配される。

ABSTRACT

In regular statistical models, the leave-one-out cross-validation is asymptotically equivalent to the Akaike information criterion. However, since many learning machines are singular statistical models, the asymptotic behavior of the cross-validation remains unknown. In previous studies, we established the singular learning theory and proposed a widely applicable information criterion, the expectation value of which is asymptotically equal to the average Bayes generalization loss. In the present paper, we theoretically compare the Bayes cross-validation loss and the widely applicable information criterion and prove two theorems. First, the Bayes cross-validation loss is asymptotically equivalent to the widely applicable information criterion as a random variable. Therefore, model selection and hyperparameter optimization using these two values are asymptotically equivalent. Second, the sum of the Bayes generalization error and the Bayes cross-validation error is asymptotically equal to $2λ/n$, where $λ$ is the real log canonical threshold and $n$ is the number of training samples. Therefore the relation between the cross-validation error and the generalization error is determined by the algebraic geometrical structure of a learning machine. We also clarify that the deviance information criteria are different from the Bayes cross-validation and the widely applicable information criterion.

研究の動機と目的

  • 特異モデルにおけるAIC/BICの不適切さと信頼できる一般化誤差推定の必要性に対して研究を動機づける。
  • 特異学習理論の中でBayes交差検証とWAICを定義し、それらの漸近的挙動を確立する。
  • クロスバリデーション、WAIC、Bayes一般化誤差の関係を代数幾何的不変量を通じて特徴づける。
  • 実対数正準閾値λと特異ゆらぎが一般化誤差とCV誤差の漸近挙動を決定する。

提案手法

  • 事前分布、事後分布、予測分布を備えたBayes学習フレームワークを定義する。
  • CVL(n)と留一法の構築を事後期待値とともに導入する。
  • 関数的量子括弧(functional cumulants)と生成関数を用いてCVL(n)とWAIC(n)をYk(n)(k=1..4)の形で表現する。
  • 定理1および定理2を証明する: (i) CVL(n)とWAIC(n)はOp(1/n^2)まで同一の展開を共有する;(ii) Bayes一般化誤差とCV誤差の和Bg(n)+Cv(n)は2λ/(β n)を含む項とともに、(β−1)V(n)/nの項と共に収束する;β=1の場合は2λ/n + Op(1/n)に単純化される。
  • 結果を実際の対数正準閾値λおよびモデルの双一次不変量と関連づける。

実験結果

リサーチクエスチョン

  • RQ1特異学習モデルにおいてBayes交差検証損失とWAICは漸近的に確率変数として同等であるか。
  • RQ2Bayes一般化誤差、クロスバリデーション誤差、およびWAICは実対数正準閾値λと特異ゆらぎνを通じてどのように関係するか。
  • RQ3モデルの代数幾何学的構造(λ, ν)がこれらの指標の漸近挙動にどのような役割を果たすか。

主な発見

  • Bayes交差検証損失とWAICは漸近的に確率変数として一致する(CvL(n)=WAIC(n)+Op(n^−3/2); β=1ではOp(n^−2))。
  • CVL(n)とWAIC(n)の両方が、同じ関数的括弧量Yn(n)(Y1(n)、Y2(n)、Y3(n))に支配される展開を持つ。
  • Bayes一般化誤差とクロスバリデーション誤差の和はBg(n)+Cv(n) = (β−1)V(n)/n + 2λ/(β n) + op(1/n) を満たす;β=1の場合は2λ/n + op(1/n)に簡略化される。
  • 実対数正準閾値λと特異ゆらぎνはビラショナル不変量であり、CV/WAICの漸近挙動を支配し、モデルの代数構造と結びつける。
  • Corollary 1はCvL(n) = WAIC(n) + Op(n^−3/2)となることを示す;β=1の場合はOp(n^−2)。
  • 本論は、特異な設定において逸脱情報基準がBayesCVおよびWAICとは異なることを明確に示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。