[论文解读] Asymptotic Equivalence of Bayes Cross Validation and Widely Applicable Information Criterion in Singular Learning Theory
在单一学习模型中,Bayes cross-validation loss 和 WAIC 作为随机变量在渐近意义上等价,它们与 Bayes generalization error 的和由 real log canonical threshold 和奇异结构所支配。
In regular statistical models, the leave-one-out cross-validation is asymptotically equivalent to the Akaike information criterion. However, since many learning machines are singular statistical models, the asymptotic behavior of the cross-validation remains unknown. In previous studies, we established the singular learning theory and proposed a widely applicable information criterion, the expectation value of which is asymptotically equal to the average Bayes generalization loss. In the present paper, we theoretically compare the Bayes cross-validation loss and the widely applicable information criterion and prove two theorems. First, the Bayes cross-validation loss is asymptotically equivalent to the widely applicable information criterion as a random variable. Therefore, model selection and hyperparameter optimization using these two values are asymptotically equivalent. Second, the sum of the Bayes generalization error and the Bayes cross-validation error is asymptotically equal to $2λ/n$, where $λ$ is the real log canonical threshold and $n$ is the number of training samples. Therefore the relation between the cross-validation error and the generalization error is determined by the algebraic geometrical structure of a learning machine. We also clarify that the deviance information criteria are different from the Bayes cross-validation and the widely applicable information criterion.
研究动机与目标
- 通过解决 AIC/BIC 在奇异模型中的不足以及需要可靠泛化误差估计来驱动研究。
- 在奇异学习理论中定义 Bayes cross-validation 和 WAIC,并建立它们的渐近行为。
- 通过代数几何不变量描述交叉验证、WAIC 与 Bayes generalization error 之间的关系。
- 研究 real log canonical threshold 与奇异波动如何决定泛化误差与 CV 误差的渐近性质。
提出的方法
- 在先验、后验和预测分布下定义 Bayes 学习框架。
- 引入 cross-validation loss CVL(n) 及其留一法构造与后验期望。
- 使用泛函累积量和生成函数将 CVL(n) 与 WAIC(n) 表示为关于 Yk(n) (k=1..4) 的形式。
- 证明定理 1 和 2: (i) CVL(n) 与 WAIC(n) 具有相同的展开式,直到 Op(1/n^2);(ii) 融合项 B g(n)+Cv(n) 收敛到 2λ/(β n) 加上涉及奇异波动 ν 的项。
- 将结果与 real log canonical threshold λ 及模型的有 birational 不变量联系起来。
实验结果
研究问题
- RQ1在奇异学习模型中,Bayes cross-validation loss 和 WAIC 是否作为随机变量在渐近意义上等价?
- RQ2Bayes generalization error、cross-validation error 与 WAIC 如何通过 real log canonical threshold λ 与 singular fluctuation ν 相互关系?
- RQ3模型的代数几何结构(λ, ν)在这些准则的渐近行为中扮演怎样的角色?
主要发现
- Bayes cross-validation loss 与 WAIC 在渐近意义上作为随机变量等价(CvL(n) = WAIC(n) + Op(n^(-3/2));对 β=1,Op(n^(-2)))。
- CVL(n) 与 WAIC(n) 的展开都由同样的函数累积量 Y1(n)、Y2(n) 与 Y3(n) 主导。
- Bayes generalization error 与 cross-validation error 的和满足 B g(n)+C v(n) = (β−1)V(n)/n + 2λ/(β n) + o p(1/n);对 β=1 这一式化简为 2λ/n + o p(1/n)。
- real log canonical threshold λ 与奇异波动 ν 是支配渐近行为的有 birational 不变量,将 CV/WAIC 与模型的代数结构联系起来。
- Corollary 1 表示 C v L(n) = WAIC(n) + Op(n^(-3/2)); 当 β=1 时,为 Op(n^(-2))。
- 本文澄清在此奇异设定中 deviance information criteria 与 Bayes CV 与 WAIC 的差别。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。