Skip to main content
QUICK REVIEW

[論文レビュー] ConTNet: Why not use convolution and transformer at the same time?

Haotian Yan, Zhe Li|arXiv (Cornell University)|Apr 27, 2021
Advanced Neural Network Applications参考文献 44被引用数 62
ひとこと要約

ConTNetは標準のトランスフォーマーエンコーダと畳み込み層を組み合わせて受容野を拡大し、DeiTよりも計算量を抑えつつImageNetで高い精度を達成し、下流の密な予測タスクを改善します。

ABSTRACT

Although convolutional networks (ConvNets) have enjoyed great success in computer vision (CV), it suffers from capturing global information crucial to dense prediction tasks such as object detection and segmentation. In this work, we innovatively propose ConTNet (ConvolutionTransformer Network), combining transformer with ConvNet architectures to provide large receptive fields. Unlike the recently-proposed transformer-based models (e.g., ViT, DeiT) that are sensitive to hyper-parameters and extremely dependent on a pile of data augmentations when trained from scratch on a midsize dataset (e.g., ImageNet1k), ConTNet can be optimized like normal ConvNets (e.g., ResNet) and preserve an outstanding robustness. It is also worth pointing that, given identical strong data augmentations, the performance improvement of ConTNet is more remarkable than that of ResNet. We present its superiority and effectiveness on image classification and downstream tasks. For example, our ConTNet achieves 81.8% top-1 accuracy on ImageNet which is the same as DeiT-B with less than 40% computational complexity. ConTNet-M also outperforms ResNet50 as the backbone of both Faster-RCNN (by 2.6%) and Mask-RCNN (by 3.2%) on COCO2017 dataset. We hope that ConTNet could serve as a useful backbone for CV tasks and bring new ideas for model design

研究の動機と目的

  • データ量を多く必要とせず、ハイパーパラメータに敏感なトランスフォーマを必要とせずに長距離依存を捉えるバックボーンを作成する動機づけ。
  • 3×3 の畳み込みとトランスフォーマーエンコーダを交互に並べるConTNetアーキテクチャを導入する。
  • ConTNetが標準のConvNetパイプラインとデータ拡張で訓練できることを示す。
  • 画像分類と下流の密な予測タスクでの改善を示す。

提案手法

  • ConTNetをConTブロックのスタックとして導入し、各ブロックは2つの標準トランスフォーマーエンコーダ(STE)と3x3の畳み込みを含む。
  • STEをパッチ単位で埋め込む:特徴マップをパッチに分割し、シーケンスに平坦化して、位置エンコーディング付きのSTEを適用し、再び特徴マップにリシェイプする。
  • STEとConv層を交互に用いて世界的特徴と局所的特徴を共同で捕捉し、残差接続を持つ。
  • 深さ/幅を段階的に大きくし、設定可能なパッチサイズ(7x7と14x14)を持つ4つのアーキテクチャ変種(ConT-Ti, S, M, B)を提供する。
  • パッチ単位のSTE操作を定義する: y^p_{mn} = STE(x^p_{mn}) ただし STE = FFN(MHSA(x^p_{mn} + PE))。
  • ConTNetが標準のConvNetパイプラインとデータ拡張で訓練できることを示すための訓練レジームを検討する(例:ResNetと同様に最適化可能で、DeiT/ViT比較と同様のデータ拡張手法を用いる)。

実験結果

リサーチクエスチョン

  • RQ1ConTNetは同様の訓練条件下で純粋なConvNetsおよび純粋なVision TransformersをImageNetで上回れるバックボーンになり得るか?
  • RQ2STEをConvNetアーキテクチャに埋め込むことで堅牢性と下流の密な予測タスクへの転移は改善されるか(大量の事前訓練を必要とせず)?
  • RQ3パッチサイズ、学習率、グルーピングはConTNetの性能と効率にどのような影響を与えるか?

主な発見

ネットワークFLOPs (G)パラメータ数 (M)Top-1 (%)
Res-181.811.771.5
ConT-S1.510.174.9
Res-504.025.677.1
ConT-M3.119.277.6
Res-1017.644.578.2
ConT-B6.439.677.9
  • ConTNetはConT-BでImageNetのトップ1精度81.8%を達成し、DeiT-Bと同等の性能を、FLOPsを約40%削減して実現。
  • 追加の工夫なしでImageNetにおいて、ConT系の変種は同程度の予算でResNetを上回る(例:ConT-MはResNet-50を上回る;ConT-BはResNet-101を0.3%上回る)。
  • 強力なデータ拡張を用いると、ConTNetは予算を超えてResNetのベースラインを一貫して上回る(例:ConT-B 81.8% 対 Res-101 80.0%)。
  • 検出・セグメンテーションのバックボーンとして、ConT-MはFaster-RCNN、FCOS、RetinaNetを改善(タスクに応じてAPが+2.6〜+4.3ポイント向上)。
  • インスタンス分割とセマンティック分割も恩恵を受ける(Mask-RCNN: bbox MAP +2.3、seg MAP +3.4;Cityscapes mIOU: PSPNet+ConT-M +1.16%)。
  • アブレーションによりパッチ単位の位置エンコーディングが有益であることが示され、7と14のパッチサイズで交互構成が最良となる(表9)。
  • グループ畳み込みは標準畳込みに比べ精度を低下させる;深さ方向分離可能畳み込みは効率と精度のトレードオフに有利を提供する(表11)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。