QUICK REVIEW

[論文レビュー] $ShiftwiseConv:$ Small Convolutional Kernel with Large Kernel Effect

Dachong Li, Li Li|arXiv (Cornell University)|Jan 23, 2024

CCD and CMOS Imaging Sensors被引用数 8

ひとこと要約

本論文は、シフトと疎なグループ畳み込みを用いて小さなカーネルで大きな畳み込みカーネルを模倣するシフト-wise演算子を提案し、低コストでImageNetの性能を高く達成する。

ABSTRACT

Large kernels make standard convolutional neural networks (CNNs) great again over transformer architectures in various vision tasks. Nonetheless, recent studies meticulously designed around increasing kernel size have shown diminishing returns or stagnation in performance. Thus, the hidden factors of large kernel convolution that affect model performance remain unexplored. In this paper, we reveal that the key hidden factors of large kernels can be summarized as two separate components: extracting features at a certain granularity and fusing features by multiple pathways. To this end, we leverage the multi-path long-distance sparse dependency relationship to enhance feature utilization via the proposed Shiftwise (SW) convolution operator with a pure CNN architecture. In a wide range of vision tasks such as classification, segmentation, and detection, SW surpasses state-of-the-art transformers and CNN architectures, including SLaK and UniRepLKNet. More importantly, our experiments demonstrate that $3 \times 3$ convolutions can replace large convolutions in existing large kernel CNNs to achieve comparable effects, which may inspire follow-up works. Code and all the models at https://github.com/lidc54/shift-wiseConv.

研究の動機と目的

ハードウェアに適さない大きなカーネルを使わずに大きな受容野を実現するようCNNを動機づける。
シフトベースの集約で大きなカーネルを小さなものに分解するシフト-wise演算子を提案する。
粗粒度のスパーシティ（グループ化されたシフト）と再パラメータ化を導入して性能と効率を向上させる。
ImageNet-1Kでパラメータ・計算量を削減しつつ大きなカーネルのベースラインと同等の精度を示す。

提案手法

大きな MxN カーネルを複数の小さな kxk カーネルに分解し、各結果にシフトを適用して大きなカーネル効果を模倣する。
剪定による疎なグループ畳み込みを導入し、ハードウェア効率を保持しつつ長距離依存を作り出す。
Ghostと再パラメータ化技術を組み合わせて、マルチブランチの節約を単一の推論経路に結合する。
シフト-wise演算子を様々なカーネル形状とサイズに一般化するため、焦点長と焦点幅を定義する。
推論時の再パラメータ化を可能にするためにブランチ間で共有スパースマスクを適用し、構造を維持する。

実験結果

リサーチクエスチョン

RQ1小さな畳み込みカーネルとシフト操作を組み合わせることで、large-kernelの受容野を再現できるか？
RQ2シフト-wise groupingにおける粗粒度のスパーシティは、ハードウェア効率を保ちつつ疎な長距離依存を提供するか？
RQ3パラメータ、FLOPs、ImageNet-1Kでの精度の観点で、shift-wise演算子は既存の大きなカーネルを持つCNNアプローチとどう比較されるか？

主な発見

方法	入力サイズ	エポック数	パラメータ（M）	FLOPs（G）	スループット（画像/秒）	Acc@1（％）
SLaK	224^2	300	29	5	-	81.3
SLaK-T (ICCV2021)	224^2	300	30/50	5.0/8.7	1312	82.5
C S W i n -T (CSWin-T)	224^2	300	23	4	-	82.7
RepLKNet-T	224^2	300	32	6.1	-	81.6
InternImage-T	224^2	300	30	5	1292	83.5
UniRepLKNet-T	224^2	300	31	4.9	1804	83.2
SLaK-T (120 epochs)	224^2	120	30/50	5.0/8.7	1312	81.6
sparse-sw w/o rep	224^2	120	48	7.7	-	81.36
sparse-sw w/ rep	224^2	120	48	7.7	-	81.65

Shift-wiseモジュールは、いくつかの大きなカーネルベースラインよりも著しく少ないパラメータとFLOPsで大きなカーネル効果を達成する。
ImageNet-1Kでは、SLaK型アーキテクチャと比較して計算量とパラメータが顕著に削減されつつ競争力のある精度を示す。
疎なトレーニングは、段階全体でアクティブなグループをデータ駆動的に削減し、初期段階のスパース性を高め、後期段階のパラメータを削減する。
推論最適化された再パラメータ化（ghost/rep）は、マルチブランチのトレーニング利得を1つの効率的な経路に統合できる。
再パラメータ化されたシフトベースの畳み込みによるハードウェアに優しい実装は、同等の精度でGPUのスループットを向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。