[論文レビュー] Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
Conv2Former は自己注意を畳み込みモジュレーション演算に置換して、Transformerスタイルの ConvNet を構築します。大規模カーネルを活用し、ImageNet、COCO、および ADE20k で、人気のConvNetおよび ViTと比較して強力な結果を達成します。
This paper does not attempt to design a state-of-the-art method for visual recognition but investigates a more efficient way to make use of convolutions to encode spatial features. By comparing the design principles of the recent convolutional neural networks ConvNets) and Vision Transformers, we propose to simplify the self-attention by leveraging a convolutional modulation operation. We show that such a simple approach can better take advantage of the large kernels (>=7x7) nested in convolutional layers. We build a family of hierarchical ConvNets using the proposed convolutional modulation, termed Conv2Former. Our network is simple and easy to follow. Experiments show that our Conv2Former outperforms existent popular ConvNets and vision Transformers, like Swin Transformer and ConvNeXt in all ImageNet classification, COCO object detection and ADE20k semantic segmentation.
研究の動機と目的
- ConvNetsと Vision Transformers を対比させ、ConvNets における空間情報のエンコードを効率的に行う方法を調査する。
- 自己注意の置換として単純な畳み込みモジュレーション操作を提案する。
- 大規模カーネル畳み込みを活用して性能向上を図る階層的ConvNetファミリー(Conv2Former)を構築する。
- Conv2Former を ImageNet 分類、COCO 物体検出/セグメンテーション、ADE20k セマンティックセグメンテーションで評価する。
- 設計選択とアイソトropic(ViT風)バリアントを検討し、柔軟性とスケーラビリティを評価する。
提案手法
- ピラミッド構造の four-stage Conv2Former を導入し、段階間にパッチ埋め込みを配置する。
- 自己注意を畳み込みモジュレーションブロックに置換し、A = DConv_{k×k}(W1 X) および Z = A ⊙ (W2 X) を計算する。
- 長距離の空間相互作用を可能にする大規模カーネルサイズ(最大11×11以上)を用いた畳み込みモジュレーション。
- モジュレーション前の活性化や正規化を用いず、重み付けマップを生成するための深さ方向畳み込みとHadamard積を用いて値表現をモジュレートする。
- モデルバリアント(N、T、S、B、L)ごとに次元と深さの設定を調整し、15M–199M パラメータ、LayerNorm と GELU 活性化を用いた正規化を適用する。
- アイソトropic / ViT風 バリアント(Conv2Former-IS/IB)を用いて ViT ライクなアーキテクチャと比較する。
実験結果
リサーチクエスチョン
- RQ1畳み込みモジュレーションは自己注意を置換して、空間情報を効率的にエンコードする Transformer風ConvNet を作り出せるか。
- RQ2大規模カーネルの畳み込みは、畳み込みモジュレーションで重みとして使用した場合、一貫した性能向上をもたらすか。
- RQ3Conv2Former は ImageNet-1k/22k、さらには COCO や ADE20k の下流タスクで最先端のConvNetおよびViTと比較してどのような結果になるか。
- RQ4カーネルサイズ、重み付け戦略、モデルのアイソトロピー性が性能に与える影響は何か。
主な発見
- Conv2Former はサイズを問わず ImageNet-1k の精度が競合的または優れており、例として Conv2Former-T 83.2%、Conv2Former-S 84.1%(Table 3)。
- ImageNet-22k の事前学習を用いると、Conv2Former-S は 84.9%、Conv2Former-B は ImageNet-1k ファインチューニング時に 86.2% のトップ1精度に達し、Conv2Former-L は 87.7% を達成する。
- COCO 物体検出/インスタンスセグメンテーション(Mask R-CNN/Cascade Mask R-CNN)で、Conv2Former-T/S/B は SwinT および ConvNeXt に対して一貫した AP 増加を示し、例えば Conv2Former-T は Cascade Mask R-CNN を用いた報告設定で Mask R-CNN の AP_bb を 48.0 から 51.4 に改善。
- ADE20k セマンティックセグメンテーション(UperNet)で、Conv2Former バリアントは Swin Transformer および ConvNeXt を上回り、例えば Conv2Former-L は 54.3% mIoU(ImageNet-22k 事前学習)。
- アブレーションにより、より大きなカーネル(最大 21×21)で一貫した利得が得られ、Hadamard積に基づく融合は加算や正規化ベースの融合より優れている。
- Isotropic Conv2Former バリアント(Conv2Former-IS/IB)は、同等のパラメータ数で DeiT および ConvNeXt のベースラインを上回り、アイソトロピック設定で強力な ViT風性能を確認できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。