[论文解读] Conditional Density Estimation with Bayesian Normalising Flows
这篇论文利用贝叶斯神经网络对归一化流进行参数化,以进行条件密度估计,能够灵活、可处理地建模复杂的异方差条件分布,并可扩展应用于大规模空间数据集。
Modeling complex conditional distributions is critical in a variety of settings. Despite a long tradition of research into conditional density estimation, current methods employ either simple parametric forms or are difficult to learn in practice. This paper employs normalising flows as a flexible likelihood model and presents an efficient method for fitting them to complex densities. These estimators must trade-off between modeling distributional complexity, functional complexity and heteroscedasticity without overfitting. We recognize these trade-offs as modeling decisions and develop a Bayesian framework for placing priors over these conditional density estimators using variational Bayesian neural networks. We evaluate this method on several small benchmark regression datasets, on some of which it obtains state of the art performance. Finally, we apply the method to two spatial density modeling tasks with over 1 million datapoints using the New York City yellow taxi dataset and the Chicago crime dataset.
研究动机与目标
- 激发对灵活、可处理的条件密度估计(CDE)需求,超越简单的参数形式。
- 引入归一化流作为 CDE 的灵活似然模型。
- 通过贝叶斯神经网络在条件密度上建立先验,发展一个贝叶斯框架。
- 提供一种高效的变分推断方法来拟合这些模型。
- 证明可扩展性到大型空间数据集,并在基准上展示处于前沿的性能证据。
提出的方法
- 将归一化流用作条件似然 p(y|x),其参数由神经网络 h_theta(x) 产生。
- 对归一化流进行求反,以实现条件密度估计的高效精确密度评估(z0 = f1(f2(...(y)))),其对数密度通过对数行列式之和来计算。
- 用三参数形式 f(z)=z+ (alpha beta (z-gamma)) / (alpha+|z-gamma|) 参数化径向流,并通过对 alpha 和 beta 的 softplus 转换来保证单调性。
- 在神经网络权重上放置先验,以通过贝叶斯神经网络在 p(y|x) 及其异方差变化上引入先验。
- 执行变分推断(均场高斯、固定方差、局部重参数化)以近似 theta 的后验。
- 采用自回归/自回归结构扩展到多维目标,实现 2D 密度估计(p(y1|x) p(y2|y1,x))。
实验结果
研究问题
- RQ1归一化流能否作为一个可处理、灵活的条件密度估计的似然模型?
- RQ2如何表达并学习条件分布的先验,以在分布复杂性和异方差之间取得平衡?
- RQ3相较于现有方法,在神经网络参数上进行贝叶斯推断是否能产生鲁棒且不易过拟合的 CDE 模型?
- RQ4贝叶斯归一化流在大规模现实世界空间数据集上的扩展性如何,以及其对非高斯、异方差密度的捕捉能力?
- RQ5自回归扩展是否能改善对多维条件密度的建模?
主要发现
- 贝叶斯归一化流在若干小型 UCI 回归基准上实现最先进或具竞争力的测试对数似然。
- NF-5(5 阶段流)在所评估的 NF 变体中表现最强,在若干数据集上常常优于 MF 和 HMC 基线。
- 该方法能够捕捉具有异方差噪声的非高斯预测分布,在密度估计任务中优于若干基线。
- 自回归扩展实现了 2D 条件密度估计,在空间任务中得到验证。
- 在纽约市出租车数据和芝加哥犯罪数据上,该方法可扩展到超过一百万个数据点,并给出可解释的空间条件密度。
- MDN 与 LV 基线在大多数数据集上通常不及 NF 模型,除了一些特定任务(如葡萄酒质量)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。