QUICK REVIEW

[论文解读] Reversible Column Networks

Yuxuan Cai, Yizhuang Zhou|arXiv (Cornell University)|Dec 22, 2022

Advanced Neural Network Applications被引用 21

一句话总结

RevCol 引入了一种多列、可逆的卷积神经网络设计，能够在列之间无损地、逐步解耦的特征传递，在 ImageNet、COCO 和 ADE20K 上取得出色的结果，并可适配到变换器（Transformer）。

ABSTRACT

We propose a new neural network design paradigm Reversible Column Network (RevCol). The main body of RevCol is composed of multiple copies of subnetworks, named columns respectively, between which multi-level reversible connections are employed. Such architectural scheme attributes RevCol very different behavior from conventional networks: during forward propagation, features in RevCol are learned to be gradually disentangled when passing through each column, whose total information is maintained rather than compressed or discarded as other network does. Our experiments suggest that CNN-style RevCol models can achieve very competitive performances on multiple computer vision tasks such as image classification, object detection and semantic segmentation, especially with large parameter budget and large dataset. For example, after ImageNet-22K pre-training, RevCol-XL obtains 88.2% ImageNet-1K accuracy. Given more pre-training data, our largest model RevCol-H reaches 90.0% on ImageNet-1K, 63.8% APbox on COCO detection minival set, 61.0% mIoU on ADE20k segmentation. To our knowledge, it is the best COCO detection and ADE20k segmentation result among pure (static) CNN models. Moreover, as a general macro architecture fashion, RevCol can also be introduced into transformers or other neural networks, which is demonstrated to improve the performances in both computer vision and NLP tasks. We release code and models at https://github.com/megvii-research/RevCol

研究动机与目标

通过多列、可逆架构在不丢失信息的前提下激发学习解耦表示。
开发可逆列网络（RevCol）及多级可逆单元，以跨列融合并传播特征。
在 ImageNet 分类、COCO 目标检测和 ADE20K 语义分割上展示强劲的性能，包括大规模预训练。
通过支持与变换器（Transformer）的集成并应用于自然语言处理任务，展示 RevCol 的通用性。

提出的方法

提出一种宏观架构，由多个相同子网络（列）组成，具有可逆连接，在相邻列之间传输多级特征。
使用简化的多级可逆单元，使 x_t 从 x_{t-1} 和 x_{t-m+1} 以及一个可学习的 gamma 缩放计算得出：x_t = F_t(x_{t-1}, x_{t-m+1}) + gamma x_{t-m}，以及逆过程为 x_{t-m} = gamma^{-1}(x_t - F_t(...))。
对补丁进行嵌入，每列提取四级特征，并通过在选定列上的辅助头（解码器和线性分类器）进行中间监督，以保持信息。
修改 ConvNeXt 块以加入融合模块，将当前列与前一列的特征合并，调整内核大小、通道数，并实现可学习的按通道可逆缩放（gamma），并进行截断以确保稳定性。
采用中间损失 L = sum_i (alpha_i L_BCE + beta_i L_CE) 在选定列上进行训练，以保持信息并改善收敛。
在 ImageNet-1K/22K 上进行分类评估，在 COCO 上进行检测/分割评估，以及在 ADE20K 上进行分割评估，并展示可扩展性和与基于变换器的架构的整合能力。

实验结果

研究问题

RQ1在复杂度相近的情况下，RevCol 架构在图像分类、目标检测和语义分割上相较于 CNNs 和 ViTs 的表现如何？
RQ2在固定计算预算下，增加可逆列数量如何影响性能？
RQ3中间监督对训练收敛及下游任务性能的影响是什么？
RQ4RevCol 是否能随着更大数据和模型规模扩展，以及能否与基于变换器的骨干网络集成？

主要发现

RevCol-S 在 ImageNet-1K 上以 60M 参数和 9.0 GFLOPs 实现 83.5% 的 Top-1 准确率，超越了若干 CNN，并与同等计算量的 CNN/ViT 模型相当。
在 ImageNet-22K 预训练下，RevCol-XL 在 ImageNet-1K 上达到 88.2% Top-1；额外数据预训练使 RevCol-XL↑ 达到 89.4%。
在大规模预训练后，最大的 RevCol-H 在 ImageNet-1K 上达到 90.0% Top-1，并在 COCO minival 上取得 63.8 AP 框（结合 Object365+DINO），在 ADE20K 的 Mask2Former 下达到 61.0 mIoU。
在 COCO 和 ADE20K 上针对多种骨干网评估时，RevCol 模型在同等计算量下优于对手；RevCol-H 在大规模预训练下显示出显著提升。
中间监督持续提升性能，在 ImageNet-1K 上提供额外 0.5–0.9% 的 Top-1 准确率，并提升下游任务结果。
RevCol 由于可逆传播提供内存节省，列数维度提供了一种可扩展的增加容量的方式，类似于在单列网络中的增宽/增深。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。