QUICK REVIEW

[論文レビュー] Reversible Column Networks

Yuxuan Cai, Yizhuang Zhou|arXiv (Cornell University)|Dec 22, 2022

Advanced Neural Network Applications被引用数 21

ひとこと要約

RevColは、複数列の可逆CNN設計を導入し、損失のない、段階的に分離された特徴を列間で伝播させ、ImageNet、COCO、ADE20Kで強力な結果を達成し、トランスフォーマーにも適応可能です。

ABSTRACT

We propose a new neural network design paradigm Reversible Column Network (RevCol). The main body of RevCol is composed of multiple copies of subnetworks, named columns respectively, between which multi-level reversible connections are employed. Such architectural scheme attributes RevCol very different behavior from conventional networks: during forward propagation, features in RevCol are learned to be gradually disentangled when passing through each column, whose total information is maintained rather than compressed or discarded as other network does. Our experiments suggest that CNN-style RevCol models can achieve very competitive performances on multiple computer vision tasks such as image classification, object detection and semantic segmentation, especially with large parameter budget and large dataset. For example, after ImageNet-22K pre-training, RevCol-XL obtains 88.2% ImageNet-1K accuracy. Given more pre-training data, our largest model RevCol-H reaches 90.0% on ImageNet-1K, 63.8% APbox on COCO detection minival set, 61.0% mIoU on ADE20k segmentation. To our knowledge, it is the best COCO detection and ADE20k segmentation result among pure (static) CNN models. Moreover, as a general macro architecture fashion, RevCol can also be introduced into transformers or other neural networks, which is demonstrated to improve the performances in both computer vision and NLP tasks. We release code and models at https://github.com/megvii-research/RevCol

研究の動機と目的

情報の損失なしに、複数列の可逆アーキテクチャを通じて、分離された表現の学習を促す。
Reversible Column Networks (RevCol)と、列間の特徴を結合・伝播する多段階可逆ユニットを開発する。
ImageNet分類、COCO物体検出、ADE20K意味セグメンテーションで高い性能を示し、大規模事前学習を含む。
RevColの一般性を示し、トランスフォーマーとの統合を可能にし、NLPタスクへの適用を示す。

提案手法

隣接する列間で多レベルの特徴を転送する可逆結合を備えた、同一構造の複数のサブネットワーク（列）からなるマクロアーキテクチャを提案する。
x_tがx_{t-1}とx_{t-m+1}から、学習可能なgammaスケーリングを加えて計算される、簡略化した多レベル可逆ユニットを用いる： x_t = F_t(x_{t-1}, x_{t-m+1}) + gamma x_{t-m}、逆変換は x_{t-m} = gamma^{-1}(x_t - F_t(...))。
パッチを埋め込み、各列から四レベルの特徴を抽出し、情報を保持するために選択した列に補助ヘッド（デコーダと線形分類器）を用いた中間監視を行う。
ConvNeXtブロックを修正して、現在の列と前の列の特徴を統合する融合モジュールを含め、カーネルサイズとチャネルを調整し、安定性のためのクリッピングを伴う学習可能なチャネル方向スケーリング（gamma）を実装する。
選択された列全体に対して、情報を保持し収束を改善するために、中間損失 L = sum_i (alpha_i L_BCE + beta_i L_CE) で訓練する。
ImageNet-1K/22Kで分類、COCOで検出/セグメンテーション、ADE20Kでセグメンテーションを評価し、スケーラビリティとトランスフォーマー系アーキテクチャとの統合を示す。

実験結果

リサーチクエスチョン

RQ1RevColアーキテクチャは、CNNとViTを同程度の計算量で比較した場合、画像分類、物体検出、意味論的セグメンテーションでどのように性能を発揮しますか？
RQ2固定された計算リソースの下で、可逆列の数を増やすと性能はどう変化しますか？
RQ3中間監督が訓練収束と下流タスクの性能に与える影響はどの程度ですか？
RQ4RevColはより大規模なデータやモデルサイズでスケールしますか、またトランスフォーマーベースのバックボーンと統合できますか？

主な発見

RevCol-SはImageNet-1KでTop-1精度83.5%を、パラメータ60M、9.0 GFLOPsで達成し、いくつかのCNNを上回り、CNN/ViTモデルに匹敵する性能。
ImageNet-22Kの事前学習で、RevCol-XLはImageNet-1Kで88.2%のTop-1精度を達成。追加データの事前学習によりRevCol-XL↑は89.4%を得た。
最大のRevCol-Hは大規模事前学習後、ImageNet-1Kで90.0%のTop-1を達成し、COCO minivalで63.8のAP-ボックス（Object365+DINO）、ADE20KでMask2Formerとともに61.0のmIoUを達成。
RevColモデルは、複数のバックボーンにわたりCOCOとADE20Kの評価で同等の計算量で対抗モデルを上回る。RevCol-Hは大規模事前学習で大きな成果を示す。
中間監視は一貫して性能を向上させ、ImageNet-1Kで0.5–0.9%のTop-1精度を向上させ、下流タスクの結果を改善。
RevColは可逆伝播によるメモリ節約を提供し、列数の次元が単一列ネットワークの拡張（幅/深さ）に類似した容量拡張のスケーラビリティを提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。