[论文解读] Constructing deep neural networks by Bayesian network structure learning
本文提出一种贝叶斯网络结构学习方法,可自动构建深度神经网络,显著降低网络深度与参数量。通过学习生成图,应用其随机逆,并推导判别结构,该方法保留了条件依赖关系,并在图像基准测试中实现了最先进的准确率,且使用了更小的网络。
We introduce a principled approach for unsupervised structure learning of deep neural networks. We propose a new interpretation for depth and inter-layer connectivity where conditional independencies in the input distribution are encoded hierarchically in the network structure. Thus, the depth of the network is determined inherently. The proposed method casts the problem of neural network structure learning as a problem of Bayesian network structure learning. Then, instead of directly learning the discriminative structure, it learns a generative graph, constructs its stochastic inverse, and then constructs a discriminative graph. We prove that conditional-dependency relations among the latent variables in the generative graph are preserved in the class-conditional discriminative graph. We demonstrate on image classification benchmarks that the deepest layers (convolutional and dense) of common networks can be replaced by significantly smaller learned structures, while maintaining classification accuracy—state-of-the-art on tested benchmarks. Our structure learning algorithm requires a small computational cost and runs efficiently on a standard desktop CPU.
研究动机与目标
- 开发一种系统化、无监督的方法,无需人工设计即可学习深度神经网络架构。
- 将网络深度与层间连接性解释为输入数据分布中条件独立性的分层编码。
- 在保持分类性能的同时,减小标准网络中卷积层与全连接层的规模。
- 确保从生成图到判别图转换过程中,潜在变量之间的条件依赖结构得以保留。
- 实现在标准桌面CPU上高效进行结构学习,计算开销极低。
提出的方法
- 将深度神经网络结构学习问题建模为贝叶斯网络结构学习,以利用概率图模型的优势。
- 首先学习一个生成图模型,以编码输入数据分布中的条件独立性。
- 构建该生成图的随机逆,以将潜在变量映射到可观测输出。
- 从生成结构推导出判别图,确保潜在变量之间的条件依赖关系得以保留。
- 通过利用生成模型的概率结构,避免直接进行判别结构学习。
- 最终的网络架构由学习到的判别图推导得出,其深度与连接性由底层条件独立性结构决定。
实验结果
研究问题
- RQ1能否使用贝叶斯网络结构学习方法,以系统化、无监督的方式学习深度神经网络架构?
- RQ2从生成图到判别图保留条件依赖关系是否能维持或提升分类性能?
- RQ3所得到的网络是否能显著小于标准架构,同时实现最先进的准确率?
- RQ4所提出的方法是否在标准硬件上具备足够的计算效率,可实现实际部署?
- RQ5所学习网络的深度与连接性如何与输入数据中的条件独立性结构相关联?
主要发现
- 所提出方法成功构建了深度神经网络,其最深层的参数量相比标准架构显著减少。
- 所学习的网络在测试的图像分类基准上保持了最先进的分类准确率。
- 生成模型中潜在变量之间的条件依赖关系在最终的判别网络中得以保留。
- 结构学习算法在标准桌面CPU上运行高效,计算成本极低。
- 最终网络的深度与连接性由输入数据分布中的条件独立性结构自然决定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。