Skip to main content
QUICK REVIEW

[论文解读] Resnet in Resnet: Generalizing Residual Architectures

Sasha Targ, Diogo Almeida|arXiv (Cornell University)|Mar 25, 2016
Advanced Neural Network Applications参考文献 15被引用 656
一句话总结

RiR 引入了具有并行残差流和瞬时流的广义残差块,相对于 ResNet 有所改进,并在 CIFAR-100 上达到最先进的性能。它在不增加额外计算开销的情况下广义化了 CNN 和 ResNet。

ABSTRACT

Residual networks (ResNets) have recently achieved state-of-the-art on challenging computer vision tasks. We introduce Resnet in Resnet (RiR): a deep dual-stream architecture that generalizes ResNets and standard CNNs and is easily implemented with no computational overhead. RiR consistently improves performance over ResNets, outperforms architectures with similar amounts of augmentation on CIFAR-10, and establishes a new state-of-the-art on CIFAR-100.

研究动机与目标

  • 通过允许从早期表示中丢弃信息来推动对残差网络的改进。
  • 将残差块广义化,以并行地结合残差流和非残差(瞬态)流。
  • 证明以 RiR 实例化的广义残差架构在 CIFAR 数据集上比标准 ResNet 拥有更好的性能。
  • 展示 ResNet Init 能在不增加额外参数的情况下实现广义残差块的有效实现。
  • 探索深度鲁棒性以及双流处理对学习残差表示的影响。

提出的方法

  • 定义一个具有两条并行流的广义残差块:保留单位捷径的残差流(r)和具有标准卷积处理的瞬态流(t)。
  • 引入跨流卷积 W_{l,r→t}, W_{l,t→r},并通过共享激活、批量归一化和 ReLU 将 r 与 t 结合(方程1)。
  • 通过修改的初始化(ResNet Init)实现广义块,将流连接起来,并实现与分离线性操作的严格等价性(方程2)。
  • 通过用广义残差块替换 ResNet 块中的每个卷积,构建 RiR,使在加入回残差流之前能够实现可变的有效处理深度。
  • 使用网格搜索调优的超参数(学习率计划、初始化、优化器、L2)以及标准数据增强,在 CIFAR-10/100 上比较架构。
  • 在各种块深度和配置下进行评估,以评估深度鲁棒性及每个流的贡献。

实验结果

研究问题

  • RQ1具有双流的广义残余块是否能提高相较于标准 ResNet 块的表达能力和优化性?
  • RQ2RiR 能否在 CIFAR-10 和 CIFAR-100 上超越 ResNet 和 ResNet Init,包括更深或更宽的配置?
  • RQ3残差流与瞬态流之间信息分布如何影响学习和最终准确性?
  • RQ4ResNet Init 是否是实现广义残差块而不增加参数的可行且有效的方法?
  • RQ5深度和块结构如何影响 RiR 相对于传统 ResNet 的性能?

主要发现

  • RiR 在 CIFAR-10 和 CIFAR-100 的实验中优于原始 ResNet。
  • ResNet Init 在标准 CNN 基线和 ResNet 变体上始终表现更好。
  • RiR 在 CIFAR-100 上取得了最先进的结果,在 CIFAR-10 上在标准数据增强下也具有竞争力的性能。
  • 残差流和瞬态流都对准确度有贡献,并且它们的相对使用在各处理阶段会改变。
  • RiR 使得训练更深的残差网络比标准 ResNet 更有效,表明深度鲁棒性增强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。