QUICK REVIEW

[論文レビュー] IGCV$2$: Interleaved Structured Sparse Convolutional Neural Networks

Guotian Xie, Jingdong Wang|arXiv (Cornell University)|Apr 17, 2018

Machine Learning and ELM参考文献 2被引用数 27

ひとこと要約

本論文は、複数の構造的スパースカーネルを合成することでインタリーブドグループ畳み込みを一般化する、効率的な畳み込みニューラルネットワークのための新規ブロックスペルであるIGCV$^2$を提案する。補完的かつバランスの条件を課すことにより、IGCV$^2$はモデルサイズ、計算コスト、精度の間で優れたトレードオフを達成し、FLOPsとパラメータ数を削減しながらも高い精度を維持する。ImageNetベンチマークにおいて、XceptionおよびMobileNetの変種を上回る性能を発揮する。

ABSTRACT

In this paper, we study the problem of designing efficient convolutional neural network architectures with the interest in eliminating the redundancy in convolution kernels. In addition to structured sparse kernels, low-rank kernels and the product of low-rank kernels, the product of structured sparse kernels, which is a framework for interpreting the recently-developed interleaved group convolutions (IGC) and its variants (e.g., Xception), has been attracting increasing interests. Motivated by the observation that the convolutions contained in a group convolution in IGC can be further decomposed in the same manner, we present a modularized building block, {IGCV$2$:} interleaved structured sparse convolutions. It generalizes interleaved group convolutions, which is composed of two structured sparse kernels, to the product of more structured sparse kernels, further eliminating the redundancy. We present the complementary condition and the balance condition to guide the design of structured sparse kernels, obtaining a balance among three aspects: model size, computation complexity and classification accuracy. Experimental results demonstrate the advantage on the balance among these three aspects compared to interleaved group convolutions and Xception, and competitive performance compared to other state-of-the-art architecture design methods.

研究の動機と目的

効率的なディープラーニングモデルにおける畳み込みカーネルパラメータの冗長性を低減すること。
インタリーブドグループ畳み込み（IGC）およびXceptionを、2つ以上の構造的スパースカーネルの合成によって一般化すること。
疎な構成要素から密な有効なカーネルを構築するための設計原則—補完的およびバランスの条件—を確立すること。
軽量CNNアーキテクチャにおいて、モデルサイズ、FLOPs、分類精度の間でバランスの取れたトレードオフを達成すること。
ImageNetのような大規模画像分類ベンチマークにおいて、優れた効率性と性能を示すこと。

提案手法

IGCV$^2$は、各グループ畳み込みがブロック対角スパース性を持つ複数の構造的スパースカーネルの積として密なカーネルを構築する。
補完的条件を導入し、各出力チャネルが正確に1つの経路を通じてすべての入力チャネルに接続されることを保証することで、カーネルの密度を維持する。
バランスの条件は、グループ数とスパースパターンを調整することで、モデルサイズ、FLOPs、精度のトレードオフを制御する。
グループ畳み込みの間に置換行列を用いることで、経路の多様性とカーネルの合成を可能にする。
モジュラーに設計されており、MobileNetやXceptionと同様に、IGCV$^2$-1.0、IGCV$^3$などのブロックを積み重ねて完全なネットワークを構築できる。
線形および非線形ブロックの両方をサポートし、深さの増したブロックではスキップ接続とチャネル拡張が可能である。

実験結果

リサーチクエスチョン

RQ12つ以上の構造的スパースカーネルの積が、Xception や IGC よりもさらに冗長性を低減できるか？
RQ2補完的およびバランスの条件を数学的に定式化することで、有効なカーネル合成と性能を保証できるか？
RQ3提案されたIGCV$^2$ブロックは、最先端の軽量CNNと比較して、ImageNetにおける効率性・精度のトレードオフをさらに改善できるか？
RQ4モジュラーなIGCV$^2$ブロックをボトルネック構造と効果的に組み合わせることで、さらなる性能向上が可能か？
RQ5MobileNet や Xception と比較して、IGCV$^2$ の性能は幅係数やアーキテクチャの深さに応じてどのようにスケーリングするか？

主な発見

幅係数1.0のIGCV$^3$は、350万パラメータと3億2000万FLOPsでImageNetでトップ1正解率72.2％を達成し、同程度のFLOPとパラメータ予算下でMobileNetV2-1.0（71.0％）を上回る。
IGCV$^3$-0.7は200万パラメータと1億7000万FLOPsでトップ1正解率68.46％を達成し、モデルサイズが小さいにもかかわらずMobileNetV2-0.7（66.57％）を上回る。
補完的条件を緩めてもIGCV$^2$ブロックは高い性能を維持でき、柔軟なグループ構成を可能にし、効率的なハードウェア実装を可能にする。
提案された補完的およびバランスの条件は、モデルサイズやFLOPsを著しく増加させることなく、構造的スパースカーネルの設計を効果的に導く。
IGCV$^2$-1.0は、MobileNetV1よりも小さなモデルサイズで競争力のある性能を発揮し、その効率性を示している。
IGCV$^2$は、カーネル合成における構造的スパース成分を2つ以上に拡張することで、XceptionおよびIGCを一般化し、さらなる冗長性低減を実現している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。