QUICK REVIEW

[論文レビュー] Squeeze-and-Excitation Networks

Jie Hu, Li Shen|arXiv (Cornell University)|Sep 5, 2017

Advanced Neural Network Applications被引用数 2,226

ひとこと要約

Squeeze-and-Excitation (SE) ブロックを導入し、チャネル間の依存関係をモデル化するためにチャネル単位の特徴応答を再調整し、さまざまな CNN アーキテクチャとデータセット全体で、計算オーバーヘッドを最小限に抑えつつ精度を大きく向上させる。

ABSTRACT

The central building block of convolutional neural networks (CNNs) is the convolution operator, which enables networks to construct informative features by fusing both spatial and channel-wise information within local receptive fields at each layer. A broad range of prior research has investigated the spatial component of this relationship, seeking to strengthen the representational power of a CNN by enhancing the quality of spatial encodings throughout its feature hierarchy. In this work, we focus instead on the channel relationship and propose a novel architectural unit, which we term the "Squeeze-and-Excitation" (SE) block, that adaptively recalibrates channel-wise feature responses by explicitly modelling interdependencies between channels. We show that these blocks can be stacked together to form SENet architectures that generalise extremely effectively across different datasets. We further demonstrate that SE blocks bring significant improvements in performance for existing state-of-the-art CNNs at slight additional computational cost. Squeeze-and-Excitation Networks formed the foundation of our ILSVRC 2017 classification submission which won first place and reduced the top-5 error to 2.251%, surpassing the winning entry of 2016 by a relative improvement of ~25%. Models and code are available at https://github.com/hujie-frank/SENet.

研究の動機と目的

チャネル間の依存関係を明示的にモデリングすることが、CNN の表現性を改善するかを調べる。
チャネル単位の特徴応答を再調整する軽量なアーキテクチャユニット（SE ブロック）を開発する。
SE ブロックをさまざまなアーキテクチャにドロップイン置換として統合し、計算コストを大幅に増やすことなく性能を向上させることができることを示す。

提案手法

グローバル平均プーリングによるスクイーズ操作を用いてグローバルなチャネル統計を捉える SE ブロックを定義する。
ボトルネックとして2つの全結合層とシグモイドゲートを備えた励起機構を設計し、チャネルごとの重みを生成する。
学習されたチャネルごとの重みを用いて対応する特徴マップをスケーリング（チャネルごとの再重み付け）する。
SE ブロックを積み重ねて SENet アーキテクチャを形成するか、既存のネットワークのブロックを SE-ResNet、SE-Inception などとして置換して、深さやアーキテクチャに対応させる。
SE ブロックを ImageNet や CIFAR-10/100、Places365 などの追加データセット、および ResNet、Inception、ResNeXt、MobileNet、ShuffleNet などのアーキテクチャで評価する。
ベースラインと比較し、GFLOP のオーバーヘッドが控えめ（r = 16 がデフォルト）で改善を報告する。

実験結果

リサーチクエスチョン

RQ1SE ブロックは、標準的な CNN アーキテクチャ全体で、計算コストを大きく増やすことなく分類精度を改善するか。
RQ2SE ブロックによるチャネル単位の再調整は、ImageNet を超えたデータセットやタスクにも一般化できるか。
RQ3SE ブロックは異なるネットワーク深さやアーキテクチャに対してどのような影響を与えるか。

主な発見

SE ブロックは ResNet、Inception-ResNet、ResNeXt、VGGに類似したMobileNet、ShuffleNet のベースラインでもトップ1およびトップ5 の精度を一貫して改善する。
SE-ResNet-50 は ImageNet で 6.62% のトップ5誤差を達成（ResNet-50 より 0.86% の改善）し、約半分の FLOPs でより深い ResNet-101 の性能に近づく。
SE-ResNet-101 および SE-ResNet-152 は、それぞれ非 SE の counterparts や一部のより深いモデルよりも優れており、計算コストが同程度またはやや増加する程度で精度が向上する。
SE ブロックは CIFAR-10 および CIFAR-100 でも ResNet、WRN、Shake-Shake バリアントで改善をもたらし、小規模データセットでも頑健性を示す。
Places365 では SE-ResNet-152 が ResNet-152 よりトップ5誤差を低く抑える（11.01% 対 11.61%）。
Faster R-CNN による COCO での物体検出では、SE-ResNet バックボーンがベースライン ResNet と比較して AP@IoU=0.5 および AP を改善する（例：SE-ResNet-50 は ResNet-50 を 2.4 AP ポイント上回る）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。