[論文レビュー] Involution: Inverting the Inherence of Convolution for Visual Recognition
この論文は involution を導入します。convolution の反対操作で、空間適応的でチャンネル共有のカーネルを単一ピクセルで条件付けして RedNet を構築し、ImageNet、COCO、Cityscapes で計算量を抑えつつ高い精度を達成します。また、involution フレームワーク内で自己注意を統合し、競争力のある精度-コストのトレードオフを示します。
Convolution has been the core ingredient of modern neural networks, triggering the surge of deep learning in vision. In this work, we rethink the inherent principles of standard convolution for vision tasks, specifically spatial-agnostic and channel-specific. Instead, we present a novel atomic operation for deep neural networks by inverting the aforementioned design principles of convolution, coined as involution. We additionally demystify the recent popular self-attention operator and subsume it into our involution family as an over-complicated instantiation. The proposed involution operator could be leveraged as fundamental bricks to build the new generation of neural networks for visual recognition, powering different deep learning models on several prevalent benchmarks, including ImageNet classification, COCO detection and segmentation, together with Cityscapes segmentation. Our involution-based models improve the performance of convolutional baselines using ResNet-50 by up to 1.6% top-1 accuracy, 2.5% and 2.4% bounding box AP, and 4.7% mean IoU absolutely while compressing the computational cost to 66%, 65%, 72%, and 57% on the above benchmarks, respectively. Code and pre-trained models for all the tasks are available at https://github.com/d-li14/involution.
研究の動機と目的
- 視覚タスクにおける空間不変性とチャンネルの冗長性に対処するため、空間とチャンネルの役割を入れ替えることで標準的な畳み込みを再考する。
- チャンネル間でカーネルを共有し、空間位置に適応する軽量なピクセル条件付き involution 演算子を提案する。
- involution が自己注意を一般化し、分類・検出・セグメンテーションのための効率的なバックボーン(RedNet)を構築するドロップインの基本要素となり得ることを示す。
- ImageNet、COCO(検出/セグメンテーション)、Cityscapes(セグメンテーション)における最先端の精度-効率トレードオフを実証する。
提案手法
- involution を、入力位置 (i,j) ごとにサイズ KxK のカーネル H を生成する、空間的に特定され、チャンネルに依存しない演算として定義する。
- 単一ピクセル X_{i,j} によって H を条件付けて生成するボトルネック phi: H_{i,j} = phi(X_{i,j}) = W1 sigma(W0 X_{i,j}).
- Y_{i,j,k} = sum_{(u,v) in Delta_K} H_{i,j,u+K/2,v+K/2, floor(kG/C)} X_{i+u,j+v,k} を共有された involution カーネルで計算する。
- カーネル生成を ResNet 風のバックボーン(RedNet)に埋め込み、 stem/bottlenecks の 3x3 畳み込みを involution に置換し、融合のための 1x1 投影は維持する。
- 精度と効率を評価するため、ImageNet、COCO、Cityscapes における畳み込みおよび自己注意ベースラインと RedNet を比較する。
- 自己注意との関係を論じ、explicit に query-key-value を形成せずに競争力のある結果を達成できる、一般化されたより単純な実装として involution を示す。
実験結果
リサーチクエスチョン
- RQ1空間的に適応し、チャンネルに依存しないカーネル(involution)を持つ演算子は、標準の畳み込みよりも優れており、効率的か?
主な発見
- involution は広い空間文脈のモデリングと適応的な空間重み付けを可能にし、チャンネル間で共有することでカーネルの冗長性を低減します。
- RedNet with involution は ImageNet における top-1 精度で畳み込みベースの ResNet 系より常に上回り、パラメータ数と FLOPs が少ない。
- COCO では involution を用いた RedNet-50 が畳み込みベースの bbox AP を改善し、ネックやヘッドでの計算をさらに削減可能。
- Cityscapes では involution を用いた RedNet バックボーンが mean IoU を向上させ、大規模オブジェクトの性能も改善され、ネックとヘッドでのパラメータおよび FLOPs が大幅に削減される。
- タスク全体で、involution ベースのアーキテクチャは CNNs および自己注意ベースモデルと比較して、同等または高い精度で計算量を20-40%削減することが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。