QUICK REVIEW

[論文レビュー] ResNeSt: Split-Attention Networks

Hang Zhang, Chongruo Wu|arXiv (Cornell University)|Apr 19, 2020

Domain Adaptation and Few-Shot Learning被引用数 455

ひとこと要約

ResNeStは、マルチパスグループ内でチャネルごとの注意を適用するSplit-Attentionブロックを導入し、精度–レイテンシのトレードオフを上回る性能を発揮し、ビジョンタスク全体での転移学習結果が強力である。

ABSTRACT

It is well known that featuremap attention and multi-path representation are important for visual recognition. In this paper, we present a modularized architecture, which applies the channel-wise attention on different network branches to leverage their success in capturing cross-feature interactions and learning diverse representations. Our design results in a simple and unified computation block, which can be parameterized using only a few variables. Our model, named ResNeSt, outperforms EfficientNet in accuracy and latency trade-off on image classification. In addition, ResNeSt has achieved superior transfer learning results on several public benchmarks serving as the backbone, and has been adopted by the winning entries of COCO-LVIS challenge. The source code for complete system and pretrained models are publicly available.

研究の動機と目的

CNNにおける特徴表現を、マルチパスアーキテクチャ内のクロスチャネル相互作用を捉えることで改善するという動機。
標準的な残差ブロックとモジュール的に置換可能で、効率的なSplit-Attentionブロックを統一的に開発する。
ImageNetで最先端のCNNと比較して、精度とレイテンシのトレードオフを改善することを示す。
ResNeStバックボーンを検出、セグメンテーションなどのタスクで使用した場合の転移学習の改善を示す。

提案手法

特徴マップをGグループに分割するSplit-Attentionブロックを定義する（基数K、ラディックスR、総グループ数G=KR）。
各基数グループ内でR回の変換を適用し、分割を学習されたチャネル-wiseアテンション機構で融合し、ブロック出力を形成するために結合する。
ショートカット接続を用いてResNeStブロックを形成し、ResNet風のアーキテクチャにブロックを積み上げる。
標準のCNN演算子での効率的な計算を可能にする、ラディックス優先と基数優先の実装を提供する。
大規模ミニバッチ分散訓練、コサイン学習率スケジュール、ラベルスムージング、AutoAugment、Mixup、より大きなクロップサイズ、DropBlock正規化を用いて訓練する。
ImageNetで最先端モデルと性能を比較し、MS-COCO（検出/セグメンテーション）とADE20K（セマンティックセグメンテーション）で転移学習を評価する。

実験結果

リサーチクエスチョン

RQ1Split-Attentionをマルチパスグループ内で活用することで、SE-NetやSK-Netを超える特徴間の相互作用と表現の多様性を向上させることができるか。
RQ2ResNeStの派生は、NAS最適化モデルと比較してImageNetのような大規模データセットで速度と精度のトレードオフを改善するか。
RQ3ResNeStバックボーンは、物体検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどの下流タスクで一貫した改善をもたらすか。

主な発見

ResNeStはImageNetで最先端のCNNよりも良い精度–レイテンシのトレードオフを実現し、例えばResNeSt-269は同等の精度でEfficientNet-B7より遅延が小さい。
Split-Attentionブロックは、検出・インスタンスセグメンテーション・セマンティックセグメンテーションで転移学習の向上を提供する。
ResNeSt-50/101をバックボーンに持つと、検出・セグメンテーションタスクでResNet-50/101よりパラメータが少ないケースで上回る。
Mixup、AutoAugment、より大きな入力クロップはSplit-Attentionと組み合わせることで精度向上に寄与する。
Radixと基数の設定は、ラディックスを0から4へ増やすと精度は向上するがレイテンシ/メモリも増加するため、実験では2s1x64dで実用的なバランスが見つかった。
ResNeStバックボーンは、一般的な検出/セグメンテーションフレームワークのResNetの有効な代替となり、ResNetベースラインより顕著な利点を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。