[論文レビュー] IGCV3: Interleaved Low-Rank Group Convolutions for Efficient Deep Neural Networks
IGCV3は低秩とスパースカーネルを交互に配置された低秩グループ畳み込みを介して構築し、効率的な密結合カーネルを作成します。これにより、CIFAR、ImageNet、COCOでIGCV2およびMobileNetV2より精度が向上しつつ、パラメータ数をほぼ同等に保ちます。
In this paper, we are interested in building lightweight and efficient convolutional neural networks. Inspired by the success of two design patterns, composition of structured sparse kernels, e.g., interleaved group convolutions (IGC), and composition of low-rank kernels, e.g., bottle-neck modules, we study the combination of such two design patterns, using the composition of structured sparse low-rank kernels, to form a convolutional kernel. Rather than introducing a complementary condition over channels, we introduce a loose complementary condition, which is formulated by imposing the complementary condition over super-channels, to guide the design for generating a dense convolutional kernel. The resulting network is called IGCV3. We empirically demonstrate that the combination of low-rank and sparse kernels boosts the performance and the superiority of our proposed approach to the state-of-the-arts, IGCV2 and MobileNetV2 over image classification on CIFAR and ImageNet and object detection on COCO.
研究の動機と目的
- 冗長性を減らした軽量CNNの設計を動機づける。
- 低秤と構造的スパース性を組み合わせて密な畳み込みカーネルを形成する。
- カーネル構成を導くための緩やかな補完条件(スーパーチャンネル)を導入する。
- 視覚ベンチマークでIGCV2およびMobileNetV2と比較して、IGCV3を実証的に評価する。
提案手法
- チャネルごとの空間畳み込みを積み上げ、幅を削減→回復する2段階の低秩グループポイントワイズ畳み込みと置換を組み合わせ、密な接続を維持するブロックとしてIGCV3を提案する。
- 入力/出力チャネル数の差を扱うため、ブロックスパース行列とスーパーチャンネルを用いて低秩グループ畳み込みを表現する。
- 2つのグループ畳み込みの分岐配置を導くため、スーパーチャンネル上の緩い補完条件を用いる。
- IGCV3-Dは、トレーニング/推論時のメモリを節約するため、逆ボトルネックスタイルに従う派生版を提供する。
- MobileNetV2およびIGCV2と比較して、パラメータ数、CIFAR-10/100とImageNetの精度、およびCOCOでの物体検出を評価する。
実験結果
リサーチクエスチョン
- RQ1固定パラメータ予算に対して、低秩グループ畳み込みと交互に配置されたスパース構造を統合することで、従来のモバイルアーキテクチャと比較して精度が向上するか?
- RQ2スーパーチャンネル上の緩い補完条件がIGCV3ブロックの設計と性能にどう影響するか?
- RQ3分類および検出タスクにおける、より深い配置とより広いIGCV3のトレードオフは何か?
- RQ4標準ベンチマーク(CIFAR、ImageNet、COCO)におけるIGCV3の性能は、IGCV2およびMobileNetV2と比べてどうか?
主な発見
- IGCV3-D(2つの低秩グループ畳み込みを含むより深いバージョン)は、2.2MパラメータでCIFAR-10 94.96%、CIFAR-100 77.95%を達成し、同等のパラメータ数のIGCV2およびMobileNetV2ベースラインを上回る。
- ImageNetでは、同等の計算量でIGCV3-Dはトップ1 72.2%に到達し、いくつかのモバイルネットワークベースラインを上回る。
- MobileNetV2のパラメータの50%であっても、低秩とスパース設計の組み合わせにより、CIFARとImageNetの精度は競争力があるまたは上回る。
- IGCV3はCIFAR/Imagenetの分類でMobileNetV2を上回り、バックボーン(SSDLite2)として使用した場合COCO検出性能も向上し、パラメータ数も少ない。
- 深いIGCV3構成は、単にネットワークを広げるよりも深さを増す方が利益が大きく、ボトルネック/ResNet風の知見と一致する。
- アブレーション研究では、中間ReLUを持つ第2ブロックと2つの低秩グループ畳み込みが、容量とメモリのバランスを効果的に取ることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。