[论文解读] Learning the Structure of Deep Sparse Graphical Models
本文提出了级联印度餐厅过程(CIBP),一种非参数贝叶斯先验,可实现对具有无限多隐藏单元的深度、稀疏、有向图模型的结构学习,适用于任意深度和宽度。通过将CIBP与非线性高斯信念网络结合,该框架可联合推断网络深度、层宽、边结构以及每个隐藏单元的类型(离散或连续),实现在图像数据集上具有自适应、数据驱动的架构发现能力的可 tractable MCMC 推断。
Deep belief networks are a powerful way to model complex probability distributions. However, learning the structure of a belief network, particularly one with hidden units, is difficult. The Indian buffet process has been used as a nonparametric Bayesian prior on the directed structure of a belief network with a single infinitely wide hidden layer. In this paper, we introduce the cascading Indian buffet process (CIBP), which provides a nonparametric prior on the structure of a layered, directed belief network that is unbounded in both depth and width, yet allows tractable inference. We use the CIBP prior with the nonlinear Gaussian belief network so each unit can additionally vary its behavior between discrete and continuous representations. We provide Markov chain Monte Carlo algorithms for inference in these belief networks and explore the structures learned on several image data sets.
研究动机与目标
- 为解决在隐藏单元数量未知的情况下,学习具有未观测隐藏单元的深度信念网络结构的挑战。
- 开发一种非参数贝叶斯先验,允许隐藏单元数量无界,且网络深度任意,同时保持推断的可 tractable 性。
- 使模型不仅能推断有向边结构,还能推断每个隐藏单元的类型(离散或连续),以捕捉多样的表征行为。
- 将非参数贝叶斯方法与深度信念网络统一,避免模型选择问题,通过单一无限维模型学习有效复杂度。
提出的方法
- 提出级联印度餐厅过程(CIBP),作为印度餐厅过程的新型扩展,可生成表示多层之间有向边的无限层二值矩阵。
- 将CIBP用作深度信念网络结构的非参数先验,通过单一生成过程支持任意深度和宽度。
- 将CIBP与非线性高斯信念网络(NLGBN)框架结合,其中每个隐藏单元的行为由控制其从离散到连续激活转换的精度参数调节。
- 采用马尔可夫链蒙特卡洛(MCMC)算法,从观测数据中联合推断潜在结构、边分配、单元类型和模型参数。
- 应用哈达玛积(Hadamard product)将权重矩阵与二值边指示符耦合,确保仅父单元对激活和有贡献。
- 使用范围为(−1, 1)的Sigmoid变换,并通过精度参数学习逆链接,以实现灵活的连续或二值单元行为。
实验结果
研究问题
- RQ1能否设计一种非参数贝叶斯先验,以联合推断具有隐藏单元的深度信念网络的深度、宽度和有向边结构?
- RQ2在结构学习过程中,如何使隐藏单元能够动态选择离散或连续表征?
- RQ3在无限模型维度下,CIBP的理论保证为何能确保可 tractable 推断?
- RQ4该模型如何根据数据特征(如图像数据中的局部与全局相关性)自适应调整其架构?
- RQ5该框架能否在不预先假设网络深度或宽度的情况下,发现有意义、稀疏且分层的表征?
主要发现
- CIBP先验通过Foster-Lyapunov准则证明收敛性,实现了在深度、无限宽和深的信念网络中可 tractable 的MCMC推断。
- 在MNIST数据集上,模型学习到一个三层架构,第一、二、三层隐藏层分别包含约120、100和70个单元。
- 在Frey Faces数据集上,模型发现了一个更宽且更密集的结构,第一隐藏层包含260个单元,反映出数据中的全局相关性。
- 二值边矩阵中学习到的连接模式从局部(MNIST)到全局(Frey Faces)不等,展示了模型根据数据统计自适应调整结构的能力。
- MCMC采样器混合良好,经过数小时CPU时间后生成了合理的重构结果,表明推断过程稳定且高效。
- 该框架成功推断出隐藏单元的数量及其操作类型(离散或连续),实现了灵活、数据驱动的表征学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。