QUICK REVIEW

[論文レビュー] Augmenting Convolutional networks with attention-based aggregation

Hugo Touvron, Matthieu Cord|arXiv (Cornell University)|Dec 27, 2021

Advanced Neural Network Applications被引用数 30

ひとこと要約

論文は畳み込みネットワークをアテンションベースのグローバル集約層で補強し、分類のために画像パッチに重みを付けることで非局所推論を可能にしつつ、パッチ解像度を一定に保ち、分類・セグメンテーション・検出タスク全体で良好な精度とメモリのトレードオフを維持する。

ABSTRACT

We show how to augment any convolutional network with an attention-based global map to achieve non-local reasoning. We replace the final average pooling by an attention-based aggregation layer akin to a single transformer block, that weights how the patches are involved in the classification decision. We plug this learned aggregation layer with a simplistic patch-based convolutional network parametrized by 2 parameters (width and depth). In contrast with a pyramidal design, this architecture family maintains the input patch resolution across all the layers. It yields surprisingly competitive trade-offs between accuracy and complexity, in particular in terms of memory consumption, as shown by our experiments on various computer vision tasks: object classification, image segmentation and detection.

研究の動機と目的

畳み込みネットワークにおける標準的な平均プーリングを置換する、学習可能なアテンションベースのプーリング層を導入する。
層を通じて入力解像度を一定に保つ、シンプルなパッチベースの主幹（PatchConvNet）を開発する。
パッチごとに解釈可能なアテンションマップを提供し、パッチの寄与を視覚化できるようにする。
画像分類、セグメンテーション、検出において競争力のある精度-メモリのトレードオフを実証する。

提案手法

最終平均プーリングを、クラス・トークンを用いて画像パッチにアテンションを向けるクロスアテンション・プーリング層に置き換える。
軽量な畳み込み幹と残差ブロックから構成され、層を通じて固定次元を保つパッチベースの主幹であるPatchConvNetを導入する。
オプションとして、クラスごとのクラス・トークン行列を用いてアテンションマップをクラス別に特化させる。
Lambオプティマイザ、半コサインスケジュール、ラベルスムージング、RandAugment、Mixup、CutMix、Stochastic Depth、LayerNorm/BatchNormの選択を含むDeiTに触発されたレシピで訓練する。
解釈性とメモリフットプリント削減のために単一ヘッドのアテンションを提供し、プーリング段階から直接アテンションマップを可視化する。

実験結果

リサーチクエスチョン

RQ1アテンションベースの集約層は、性能と解釈性を維持しつつ従来のプーリングを畳み込みネットワークで置換できるか？
RQ2一定のパッチ解像度を維持する（PatchConvNet）ことは、ピラミッド型アーキテクチャと比較して競争力のある精度と有利なメモリ・計算のトレードオフを提供するか？
RQ3クラスごとのアテンション（クラスごとに1つのクラス・トークン）が分類タスクの解釈性と性能にどのように影響するか？
RQ4データセットと解像度を跨ぐPatchConvNetの訓練ダイナミクスとハイパーパラメータ感度（例：Stochastic Depth、正規化）とは何か？
RQ5提案モデルは分類とともにセグメンテーションおよび検出でも、最先端アーキテクチャと比較してどの程度性能を示すか？

主な発見

アテンションベースのプーリングは直接的なパッチ寄与ウェイトを提供し、解釈可能な可視化を可能にする。
PatchConvNetは、多くのアテンションベースモデルと比較して有利なメモリ使用量で競争力のTop-1精度を提供する。
より高い入力解像度は精度を向上させ、メモリは線形にスケールし、重いピラミッドダウンサンプリングはない。
学習済みプーリングを組み込むとResNet-50の性能が改善され、FLOPsの増加は控えめ。
ImageNet21kで事前学習され、高解像度で微調整されたモデルは、224サイトの事前学習を上回る精度を達成する。
PatchConvNetは、意味的セグメンテーション（ADE20k）および物体検出（COCO）で、アテンションベースのベースラインと同程度のFLOPsとメモリで競争力の結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。