[论文解读] Where is the Information in a Deep Neural Network?
本文将 Information in the Weights (IW) 定义并分析为训练损失与权重编码长度之间的权衡,借由 PAC-Bayes bounds 将 IW 与泛化联系起来,并通过 Fisher information 将权重信息与激活不变性联系起来。
Whatever information a deep neural network has gleaned from training data is encoded in its weights. How this information affects the response of the network to future data remains largely an open question. Indeed, even defining and measuring information entails some subtleties, since a trained network is a deterministic map, so standard information measures can be degenerate. We measure information in a neural network via the optimal trade-off between accuracy of the response and complexity of the weights, measured by their coding length. Depending on the choice of code, the definition can reduce to standard measures such as Shannon Mutual Information and Fisher Information. However, the more general definition allows us to relate information to generalization and invariance, through a novel notion of effective information in the activations of a deep network. We establish a novel relation between the information in the weights and the effective information in the activations, and use this result to show that models with low (information) complexity not only generalize better, but are bound to learn invariant representations of future inputs. These relations hinge not only on the architecture of the model, but also on how it is trained, highlighting the complex inter-dependency between the class of functions implemented by deep neural networks, the loss function used for training them from finite data, and the inductive bias implicit in the optimization.
研究动机与目标
- 将 Information in the Weights 定义为扰动引起的损失变化与相对于训练数据的编码长度之间的权衡。
- 将权重中的信息通过 PAC-Bayes bounds 与泛化联系起来。
- 引入并形式化 activations 中的 effective information 概念,并将其与权重信息联系起来。
- 推导 Fisher Information 与 Shannon information 之间的关系,并展示训练动力学如何影响这些量。
- 强调信息度量对体系结构、损失和优化的依赖,并讨论实际的编码选择。
提出的方法
- 使用 over weights 的预分布 P 和后分布 Q,并以 beta 控制的目标来最小化 L_D 加 beta 乘以 KL(Q||P),定义 Information in the Weight (IW)。
- 当 beta=1 时,IW 形式化简为 Bayesian neural networks 中使用的 ELBO,而不需要贝叶斯后验。
- 将 IW 通过 PAC-Bayes bounds 与泛化联系起来,得到测试损失相对于训练损失和 KL(Q||P) 的界。
- 通过选择 P 和 Q 以在期望意义上最小化界将 IW 特化为 Shannon information,得到 I(w;D)。
- 通过假设高斯预分布/后分布并将 KL 项在小 beta 近似下与 Fisher 的对数行列式(以及 Hessian)相关联,将 IW 特化为 Fisher information。
- 证明 Fisher information 控制对干扰变量的不变性,而 Shannon information 控制泛化;并讨论在随机优化下它们的一阶联系。
实验结果
研究问题
- RQ1如何以可计算的方式在大型 DNN 中量化网络权重中保留的训练数据的信息?
- RQ2在泛化和不变性方面,权重中的信息与激活中的信息之间的关系是什么?
- RQ3在随机优化下,不同的信息度量(Shannon 与 Fisher)在权重-激活框架中如何相互关系?
- RQ4架构选择、损失函数和优化动力学如何共同影响信息内容、泛化性和学习表征的不变性?
- RQ5是否可以通过 PAC-Bayes 从 Information in the Weights 推导测试损失的界限,并将其与激活不变性相关联?
主要发现
- Information in the Weights (IW) 定义为 post-distribution over weights 与 pre-distribution 之间的 KL 散度,并由对训练损失的期望惩罚。
- IW 通过对测试损失的 PAC-Bayes 界限来界定泛化,将训练行为与对未见数据的性能联系起来。
- 在高斯编码选择下,IW 收敛为 Fisher information,连接到学习解的曲率与稳定性。
- 通过在适配的先验下对 IW 的期望来回收数据集的 Shannon information,连接 IW 与 I(w;D)。
- Fisher information 控制对噪声变量的不变性,而 Shannon information 控制泛化;SGD 动力学通过平坦极小值与稳定性促使这些度量耦合,将优化几何与信息内容联系起来。
- 该框架在确定信息被保留的内容以及表征如何泛化方面,显示出网络架构、训练损失和优化之间的紧密相互依赖。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。