Skip to main content
QUICK REVIEW

[论文解读] The Reversible Residual Network: Backpropagation Without Storing Activations

Aidan N. Gomez, Mengye Ren|arXiv (Cornell University)|Jul 14, 2017
Advanced Neural Network Applications参考文献 28被引用 193
一句话总结

RevNets 使反向传播在不存储层激活的情况下实现内存节省,在 CIFAR-10/100 和 ImageNet 上的准确度与标准 ResNets 基本相同,且训练时间开销适中。

ABSTRACT

Deep residual networks (ResNets) have significantly pushed forward the state-of-the-art on image classification, increasing in performance as networks grow both deeper and wider. However, memory consumption becomes a bottleneck, as one needs to store the activations in order to calculate gradients using backpropagation. We present the Reversible Residual Network (RevNet), a variant of ResNets where each layer's activations can be reconstructed exactly from the next layer's. Therefore, the activations for most layers need not be stored in memory during backpropagation. We demonstrate the effectiveness of RevNets on CIFAR-10, CIFAR-100, and ImageNet, establishing nearly identical classification accuracy to equally-sized ResNets, even though the activation storage requirements are independent of depth.

研究动机与目标

  • 动机:由于激活存储需求,训练深度 ResNets 时存在内存瓶颈。
  • 提出可逆残差网络(RevNets),通过重建激活以实现反向传播而无需存储激活。
  • 证明 RevNets 在 CIFAR-10、CIFAR-100 和 ImageNet 上的性能与 ResNet 相当,同时减少内存需求。

提出的方法

  • 通过将层激活分成 x1 与 x2,并使用含残差函数 F 与 G 的加法耦合,来定义可逆块。
  • 给出前向映射 y1 = x1 + F(x2),y2 = x2 + G(y1) 以及可逆重构 x2 = y2 - G(y1),x1 = y1 - F(x2)。
  • 推导反向传播过程(算法 1),在线重建激活并在不存储所有激活的情况下计算梯度。
  • 讨论可逆反向传播的计算开销(大约四倍 N 的运算量,相对于标准反向传播的三倍 N,在使用自动微分实现时实际开销接近 50%)。
  • 在 TensorFlow 中实现 RevNets,并在 CIFAR-10/100 和 ImageNet 上进行评估,与等深度的 ResNets 进行比较。

实验结果

研究问题

  • RQ1可逆块在反向传播期间是否能够精确重建激活,从而避免存储激活?
  • RQ2与标准 ResNets 相比,RevNets 的内存与计算权衡是多少?
  • RQ3RevNets 是否在标准基准上达到与 ResNets 相当的准确度,同时提供与深度无关的内存省量?
  • RQ4数值重建误差对训练动力学和最终准确度的影响是什么?

主要发现

  • RevNets 在多个体系结构上对等大小的 ResNets 在 CIFAR-10、CIFAR-100 和 ImageNet 上达到几乎相同的精度。
  • RevNets 的激活存储基本独立于网络深度,带来可观的内存节省。
  • 带有重建激活的反向传播引入适度的计算开销(实际大约多 33-50% 的运算量)。
  • 训练过程中数值重建误差会累积,但对最终性能或训练效率影响不显著。
  • 在 ImageNet 上,RevNet-104 的 top-1 错误为 23.10%,对比 ResNet-101 的 23.01%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。