Skip to main content
QUICK REVIEW

[論文レビュー] Residual Attention Network for Image Classification

Fei Wang, Mengqing Jiang|arXiv (Cornell University)|Apr 23, 2017
Advanced Neural Network Applications参考文献 38被引用数 315
ひとこと要約

本論文は Residual Attention Network を提案し、bottom-up top-down のマスク分岐を持つ Attention Modules を積み重ね、注意残差学習を用いて非常に深いネットワークを実現しつつ最先端の画像分類性能を達成する。CIFAR-10/100 と ImageNet で計算量を削減しつつ強力な結果を示す。

ABSTRACT

In this work, we propose "Residual Attention Network", a convolutional neural network using attention mechanism which can incorporate with state-of-art feed forward network architecture in an end-to-end training fashion. Our Residual Attention Network is built by stacking Attention Modules which generate attention-aware features. The attention-aware features from different modules change adaptively as layers going deeper. Inside each Attention Module, bottom-up top-down feedforward structure is used to unfold the feedforward and feedback attention process into a single feedforward process. Importantly, we propose attention residual learning to train very deep Residual Attention Networks which can be easily scaled up to hundreds of layers. Extensive analyses are conducted on CIFAR-10 and CIFAR-100 datasets to verify the effectiveness of every module mentioned above. Our Residual Attention Network achieves state-of-the-art object recognition performance on three benchmark datasets including CIFAR-10 (3.90% error), CIFAR-100 (20.45% error) and ImageNet (4.8% single model and single crop, top-5 error). Note that, our method achieves 0.6% top-1 accuracy improvement with 46% trunk depth and 69% forward FLOPs comparing to ResNet-200. The experiment also demonstrates that our network is robust against noisy labels.

研究の動機と目的

  • 混合アテンション機構を統合して特徴の識別性を改善する深い畳み込みネットワークを動機づけ、開発する。
  • bottom-up top-down のマスク分岐を備えたアテンションモジュールを導入して trunk features をソフトに重み付けする。
  • アテンション残差学習により非常に深いネットワークの訓練を可能にして劣化を抑制する。
  • ノイズの多いラベルへの頑健性と、ResNet および関連アーキテクチャと比較したパラメータ効率の改善を示す。

提案手法

  • Attention Modules を積み重ねて Residual Attention Network を形成し、各モジュールはマスク分岐とトランク分岐を持つ。
  • マスク分岐で bottom-up top-down の順伝播構造を用いて attention mask M(x) を [0,1] に生成する。
  • 注意残差学習を適用する:H(x) = (1 + M(x)) * F(x) を用いて情報を保持し勾配フローを改善する。
  • 混合、チャネル、空間のアテンション活性化を試し、混合アテンションを最も良く機能するものとして選択する。
  • トランクユニットを ResNet/ResNeXt/Inception 系に置き換え、アーキテクチャの適合性と効率を示す。
  • CIFAR-10、CIFAR-100、および ImageNet で評価し、ResNet、WRN、その他のベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1スタックされた Attention Modules が bottom-up top-down マスクを用いて、ベースラインの深いネットワークを超える画像分類性能を達成できるか。
  • RQ2アテンション残差学習は数百層の学習を、性能の悪化なしに可能にするか。
  • RQ3混合、チャネル、空間の異なるアテンション活性化が分類精度に与える影響はどれくらいか。
  • RQ4Residual Attention Network は CIFAR-10/100 および ImageNet で、精度と効率の点で最先端の方法と比べてどうか。
  • RQ5トレーニング時のノイズ付きラベルに対してアプローチは頑健か。

主な発見

  • Attention Residual Learning は Attention Modules の数が増えるにつれて一貫して性能を向上させる。
  • 混合アテンション活性化は CIFAR-10 で試験したオプションの中で最も高い精度を示す。
  • Attention-452 は CIFAR-10 で 3.90% のエラー、CIFAR-100 で 20.45% のエラーを達成し、いくつかの ResNet ベースラインよりもパラメータ数と FLOPs が著しく少ない。
  • ImageNet では Attention-56 および Attention-92 がいくつかの ResNet/ResNeXt/Inception ベースラインを上回る single-crop 評価を示し、FLOPs とパラメータ数が低いまたは同等。
  • ネットワークはソフトマスク分岐による勾配フィルタリングのおかげでノイズ付きラベルに対して頑健である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。