[论文解读] On the Emergence of Invariance and Disentangling in Deep Representations.
该论文表明,通过堆叠网络层并注入噪声,深度神经网络中的不变性可自然地通过最小表示学习产生,这与经验损失的信息分解形式上关联于权重信息量和激活最小性。其核心贡献是一条将权重信息与激活最小性及总相关性联系起来的严格不等式,解决了关于泛化性和优化几何的长期谜题。
Using classical notions of statistical decision and information theory, we show that invariance in a deep neural network is equivalent to minimality of the representation it computes, and can be achieved by stacking layers and injecting noise in the computation, under realistic and empirically validated assumptions. We use an Information Decomposition of the empirical loss to show that overfitting can be reduced by limiting the information content stored in the weights. We then present a sharp inequality that relates the information content in the weights -- which are a representation of the training set and inferred by generic optimization agnostic of invariance and disentanglement -- and the minimality and total correlation of the activation functions, which are a representation of the test datum. This allows us to tackle recent puzzles concerning the generalization properties of deep networks and their relation to the geometry of the optimization residual.
研究动机与目标
- 通过将不变性与表示最小性关联,解释为何深度网络尽管容量高仍能良好泛化。
- 解决深度学习中关于泛化性和优化残差几何的长期谜题。
- 利用统计决策理论与信息分解,形式化不变性与解耦性的出现。
- 表明限制网络权重中存储的信息可减少过拟合。
- 推导出一条将权重信息、激活最小性与总相关性联系起来的严格不等式。
提出的方法
- 使用经典统计决策理论与信息论,将表示最小性建模为等价于不变性。
- 应用经验损失的信息分解,分析权重信息如何影响过拟合。
- 提出一条将网络权重中信息含量与激活函数的最小性及总相关性联系起来的严格不等式。
- 采用噪声注入与层堆叠作为通过表示最小性实现不变性的机制。
- 利用推导出的信息论关系分析优化残差几何。
- 在关于数据与网络行为的实证验证假设下运行。
实验结果
研究问题
- RQ1深度网络中的不变性如何从优化动力学中出现?
- RQ2权重信息含量与泛化性能之间的精确关系是什么?
- RQ3堆叠与噪声注入如何导致最小化、不变的表示?
- RQ4激活中的总相关性在最小化表示冗余中起什么作用?
- RQ5优化残差的几何结构如何与表示不变性及解耦性相关联?
主要发现
- 根据信息论定义,深度网络中的不变性在形式上等价于学习表示的最小性。
- 训练过程中注入噪声并堆叠层,可通过促进最小表示来实现不变表示。
- 通过经验损失分解表明,限制网络权重中存储的信息量可减少过拟合。
- 推导出一条将权重信息与激活最小性及总相关性联系起来的严格不等式,为泛化提供了理论基础。
- 优化残差的几何结构被证明与学习表示的不变性及解耦性内在相关。
- 该框架通过将泛化性与表示的信息论原则联系起来,解决了深度网络泛化性中的关键谜题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。