[论文解读] A Probabilistic Theory of Deep Learning
本文提出了一种概率生成框架——深度渲染模型(Deep Rendering Model, DRM),通过贝叶斯推断显式建模干扰变化(例如姿态、尺度、音高),解释了深度学习为何有效。通过将深度卷积网络(DCNs)和随机决策森林(RDFs)视为DRM的判别式松弛,作者表明DCNs执行概率消息传递,且Dropout训练在缺失数据假设下自然地源自期望最大化(EM)算法。
A grand challenge in machine learning is the development of computational algorithms that match or outperform humans in perceptual inference tasks that are complicated by nuisance variation. For instance, visual object recognition involves the unknown object position, orientation, and scale in object recognition while speech recognition involves the unknown voice pronunciation, pitch, and speed. Recently, a new breed of deep learning algorithms have emerged for high-nuisance inference tasks that routinely yield pattern recognition systems with near- or super-human capabilities. But a fundamental question remains: Why do they work? Intuitions abound, but a coherent framework for understanding, analyzing, and synthesizing deep learning architectures has remained elusive. We answer this question by developing a new probabilistic framework for deep learning based on the Deep Rendering Model: a generative probabilistic model that explicitly captures latent nuisance variation. By relaxing the generative model to a discriminative one, we can recover two of the current leading deep learning systems, deep convolutional neural networks and random decision forests, providing insights into their successes and shortcomings, as well as a principled route to their improvement.
研究动机与目标
- 开发一个连贯的理论框架,解释深度学习架构为何在高干扰推断任务中成功。
- 使用贝叶斯生成方法显式建模干扰变化(例如物体位置、语音音高)。
- 在统一的概率基础之上,将深度卷积网络(DCNs)和随机决策森林(RDFs)统一起来。
- 通过应用于具有缺失数据的生成模型的EM算法,推导出Dropout训练。
- 通过概率分析与推断,为改进深度学习模型提供一个有原则的路径。
提出的方法
- 提出深度渲染模型(DRM)作为分层贝叶斯生成模型,通过潜变量(例如姿态、尺度)捕捉干扰变化。
- 通过消息传递,从DRM的概率结构中推导出深度卷积网络的关键组件(例如卷积、最大池化)。
- 使用期望最大化(EM)算法从数据中学习DRM参数,实现在潜干扰变量与观测数据之间的联合推断。
- 将生成式DRM松弛为判别式模型,以恢复DCNs和RDFs,展示其概率语义。
- 将EM算法应用于具有缺失数据的生成模型,推导出Dropout:软E步近似于集成平均,判别式M步产生Dropout训练。
- 表明所得优化目标等价于在随机掩码数据子集上训练模型混合体,与Dropout算法完全匹配。
实验结果
研究问题
- RQ1为何深度卷积网络(DCNs)在具有高维输入和干扰变化的情况下仍能良好泛化?
- RQ2Dropout训练如何在概率框架内得到正式证明?
- RQ3解释深度学习在处理干扰变量方面成功背后的潜在概率机制是什么?
- RQ4深度卷积网络与随机决策森林如何通过共同的生成模型相关联?
- RQ5EM算法能否被重新用于推导判别式深度学习算法(如Dropout训练)?
主要发现
- 深度卷积网络(DCNs)等价于从深度渲染模型(DRM)推导出的概率消息传递网络,赋予其完整的概率语义。
- DCNs中的最大池化执行对空间位置的概率边缘化,等价于在生成模型中对干扰变量进行积分。
- 在完全随机缺失数据假设下,通过EM算法对无噪声高斯渲染模型进行推导,正式得出Dropout训练。
- 所得优化目标等价于在随机掩码数据子集上训练共享权重的模型混合体,与Dropout算法完全一致。
- 将EM算法应用于生成模型,可得到与标准反向传播和Dropout训练循环相匹配的判别式训练过程。
- 该框架在单一概率理论下统一了DCNs、RDFs和Dropout,为模型设计与改进提供了有原则的基础。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。