QUICK REVIEW

[论文解读] Residual Connections Encourage Iterative Inference

Stanisław Jastrzȩbski, Devansh Arpit|arXiv (Cornell University)|Oct 13, 2017

Domain Adaptation and Few-Shot Learning被引用 46

一句话总结

本文将残差网络（ResNets）形式化为通过梯度下降在激活空间中执行迭代推理，证明了残差块自然地在隐藏表示空间中实现梯度下降，推动特征向最小化损失的方向演化。实证结果表明，较低层块学习层次化表征，而较高层块则迭代地优化特征，并揭示了朴素的参数共享会导致梯度爆炸引发的过拟合问题——通过使用经过仔细初始化的非共享批量归一化（batch normalization）得以解决。

ABSTRACT

Residual networks (Resnets) have become a prominent architecture in deep learning. However, a comprehensive understanding of Resnets is still a topic of ongoing research. A recent view argues that Resnets perform iterative refinement of features. We attempt to further expose properties of this aspect. To this end, we study Resnets both analytically and empirically. We formalize the notion of iterative refinement in Resnets by showing that residual connections naturally encourage features of residual blocks to move along the negative gradient of loss as we go from one block to the next. In addition, our empirical analysis suggests that Resnets are able to perform both representation learning and iterative refinement. In general, a Resnet block tends to concentrate representation learning behavior in the first few layers while higher layers perform iterative refinement of features. Finally we observe that sharing residual layers naively leads to representation explosion and counterintuitively, overfitting, and we show that simple existing strategies can help alleviating this problem.

研究动机与目标

正式定义并分析残差网络中的迭代推理。
探究残差块是否在隐藏表示空间中执行梯度下降。
探索残差块中的参数共享机制，以实现高效的迭代优化。
解决在深层ResNets中朴素参数共享导致的失败问题，并提出缓解策略。

提出的方法

使用泰勒展开证明每个残差块在激活空间中近似于一次梯度下降步长。
通过测量残差块输出与损失负梯度之间的余弦相似度，验证迭代优化过程。
通过实证分析残差块各阶段的特征学习与优化动力学。
提出非共享批量归一化（UBN），并设置γ为0.1，以在共享残差块时稳定训练过程。
将训练好的残差块展开至原始深度之外，以测试泛化性能。
进行消融实验，以隔离批量归一化各组件对激活值和梯度爆炸的影响。

实验结果

研究问题

RQ1残差块是否自然地在隐藏表示空间中实现梯度下降？
RQ2ResNets中的低层与高层残差块是否承担不同角色——即表征学习与迭代优化？
RQ3为何残差块的朴素参数共享会导致过拟合与性能下降？
RQ4能否在不损失性能的前提下，将ResNets展开至原始深度之外？
RQ5何种批量归一化策略能有效稳定共享残差块的训练过程？

主要发现

残差块在隐藏表示空间中近似执行一次梯度下降步长，表现为块输出与损失负梯度之间的余弦相似度高达0.85，验证了其有效性。
低层残差块主要负责层次化表征学习，而高层块则专注于迭代优化，快捷连接（shortcut connection）使这种功能分工成为可能。
对顶层残差块进行朴素参数共享会导致严重过拟合与梯度爆炸，验证准确率相比未共享模型最高下降15%。
采用γ初始化为0.1的非共享批量归一化（UBN）能有效缓解激活值与梯度爆炸问题，减少过拟合并提升泛化性能。
将ResNet展开至原始深度之外可降低训练损失并保持较低的测试损失，表明其对扩展推理步长具有鲁棒性。
消融实验证实，非共享批量归一化的统计量（均值与方差）以及γ/β参数至关重要，尤其非共享统计量对稳定共享残差网络尤为关键。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。