[论文解读] Opening the Black Box of Deep Neural Networks via Information
本文在信息平面可视化深度神经网络,以揭示 SGD 动态,显示两个阶段(经验风险最小化 ERM 和压缩),层的 IB 边界收敛,以及额外隐藏层带来的显著计算收益。
Despite their great success, there is still no comprehensive theoretical understanding of learning with Deep Neural Networks (DNNs) or their inner organization. Previous work proposed to analyze DNNs in the extit{Information Plane}; i.e., the plane of the Mutual Information values that each layer preserves on the input and output variables. They suggested that the goal of the network is to optimize the Information Bottleneck (IB) tradeoff between compression and prediction, successively, for each layer. In this work we follow up on this idea and demonstrate the effectiveness of the Information-Plane visualization of DNNs. Our main results are: (i) most of the training epochs in standard DL are spent on {\emph compression} of the input to efficient representation and not on fitting the training labels. (ii) The representation compression phase begins when the training errors becomes small and the Stochastic Gradient Decent (SGD) epochs change from a fast drift to smaller training error into a stochastic relaxation, or random diffusion, constrained by the training error value. (iii) The converged layers lie on or very close to the Information Bottleneck (IB) theoretical bound, and the maps from the input to any hidden layer and from this hidden layer to the output satisfy the IB self-consistent equations. This generalization through noise mechanism is unique to Deep Neural Networks and absent in one layer networks. (iv) The training time is dramatically reduced when adding more hidden layers. Thus the main advantage of the hidden layers is computational. This can be explained by the reduced relaxation time, as this it scales super-linearly (exponentially for simple diffusion) with the information compression from the previous layer.
研究动机与目标
- 激发对深度网络学习动态的理解,超越准确度指标。
- 通过输入与输出之间的互信息探索表示,以识别各层如何压缩信息。
- 证明学习表示在各层逐步收敛到信息瓶颈(IB)界限。
- 评估隐藏层在加速训练中的计算收益与作用。
提出的方法
- 将每一层视为具有编码器 P(T|X) 和解码器 P(Y|T) 的单一随机变量。
- 绘制并分析互信息 I(X;T) 和 I(T;Y),以为每一层形成信息平面。
- 在全连接网络上使用带交叉熵损失的随机梯度下降 (SGD) 以研究训练阶段。
- 描述两种由 SGD 驱动的阶段:经验误差最小化(ERM)阶段和表示压缩(扩散)阶段。
- 将收敛的层与 IB 自洽方程进行比较,并通过编码器-解码器关系检验 IB 最优性。
- 考察增加隐藏层对收敛速度和扩散动态的计算影响。
实验结果
研究问题
- RQ1在训练过程中,DNN 的各层是否在信息平面上呈现可预测的轨迹?
- RQ2SGD 动态如何分离为 ERM 与压缩阶段,它们的驱动因素是什么?
- RQ3收敛的层是否满足信息瓶颈自洽方程?
- RQ4额外隐藏层在训练速度和表示压缩方面提供了哪些计算收益?
- RQ5在不同训练数据量下,层与 IB 最优表示的接近程度如何?
主要发现
- 训练分为两个阶段:早期的 ERM 阶段增加关于标签的信息,随后是更长的压缩阶段,降低对输入的信息。
- 收敛的层位于信息瓶颈边界上或附近,并满足其自洽方程。
- 隐藏层通过实现更快的压缩,显著减少实现良好泛化所需的训练轮数,事实上提供了计算收益。
- 在 SGD 过程中的压缩表现为扩散,权重更新类似受训练误差约束的维纳过程,导致熵的最大化。
- 最终表示高度随机化且在不同网络之间多样化,许多不同的网络都实现了接近最优的性能。
- 层往往收敛到 IB 曲线上的临界区域附近,与相变附近的临界缓慢下降相一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。