[論文レビュー] Container: Context Aggregation Network
Container は 静的および動的アフィニティ矩陣を介して CNN、Transformer、MLP のパラダイムを統一的に結合し、マルチヘッド文脈集約を実行する。強力な画像分類と下流タスクの競争力ある性能を、効率的なトレーニングで達成する。
Convolutional neural networks (CNNs) are ubiquitous in computer vision, with a myriad of effective and efficient variations. Recently, Transformers -- originally introduced in natural language processing -- have been increasingly adopted in computer vision. While early adopters continue to employ CNN backbones, the latest networks are end-to-end CNN-free Transformer solutions. A recent surprising finding shows that a simple MLP based solution without any traditional convolutional or Transformer components can produce effective visual representations. While CNNs, Transformers and MLP-Mixers may be considered as completely disparate architectures, we provide a unified view showing that they are in fact special cases of a more general method to aggregate spatial context in a neural network stack. We present the \model (CONText AggregatIon NEtwoRk), a general-purpose building block for multi-head context aggregation that can exploit long-range interactions \emph{a la} Transformers while still exploiting the inductive bias of the local convolution operation leading to faster convergence speeds, often seen in CNNs. In contrast to Transformer-based methods that do not scale well to downstream tasks that rely on larger input image resolutions, our efficient network, named \modellight, can be employed in object detection and instance segmentation networks such as DETR, RetinaNet and Mask-RCNN to obtain an impressive detection mAP of 38.9, 43.8, 45.1 and mask mAP of 41.3, providing large improvements of 6.6, 7.3, 6.9 and 6.6 pts respectively, compared to a ResNet-50 backbone with a comparable compute and parameter size. Our method also achieves promising results on self-supervised learning compared to DeiT on the DINO framework. Code is released at \url{https://github.com/allenai/container}.
研究の動機と目的
- CNN、 Transformer、MLP アーキテクチャを文脈集約のバリアントとして統一的に示す。
- 静的および動的アフィニティ行列を混ぜ合わせる Container ブロックを導入し、長距離文脈を効率的に扱う。
- ImageNet、物体検出、インスタンス分割、および自己教師付き学習における Container および Container-Light の性能を示す。
- 純粋な Transformer バックボーンと比較した収束速度およびデータ効率の利点を示す。
提案手法
- 近傍関係を捉えるアフィニティ行列 A を用いた一般的な文脈集約フレームワークを定義する。
- Transformer、深さ方向畳み込み、および MLP-Mixer が異なるアフィニティ行列を用いた特殊ケースとして適合することを示す。
- Container を、動的アフィニティ (A(X)) と静的アフィニティ (A) の学習可能な組み合わせとして、学習可能な係数 (alpha, beta) を用いて導入する。
- 高解像度の下流タスク向けに初期段階で動的アフィニティをオフにする Container-Light を提供する。
- パッチ埋め込みと各ブロックにつき2つのサブモジュール(空間集約とチャネル融合)を備えた4段階の基本アーキテクチャを説明する。
- ImageNet、物体検出(RetinaNet、Mask R-CNN、DETR)、および自己教師付き学習(DINO)で評価する。
実験結果
リサーチクエスチョン
- RQ1統一的なアフィニティベースの文脈集約ブロックは、視覚タスク全般で CNN/Transformer/MLP バックボーンを再現または超えることができるか?
- RQ2静的アフィニティ矩陣と動的アフィニティ矩陣を組み合わせると、単独で用いる場合と比べて性能と収束が向上するか?
- RQ3分類と高解像度の下流タスクにおける Container および Container-Light の性能は、最先端バックボーンと比較してどうか?
- RQ4提案フレームワークから得られるデータ効率と収束の利点は何か?
- RQ5層を横断して学習された静的アフィニティにどのような定性的パターンが現れるか?
主な発見
| ファミリー | ネットワーク | Top-1 精度 | パラメータ | FLOPs | スループット | 入力次元 | NAS |
|---|---|---|---|---|---|---|---|
| Container | Container | 82.7 | 22.1 M | 8.1 G | 347.8 | 224^2 | ✗ |
| Container-Light | Container-Light | 82.0 | 20.0 M | 3.2 G | 1156.9 | 224^2 | ✗ |
- Container は ImageNet で Top-1 精度 82.7%、パラメータ 22M、DeiT-S より 2.8 ポイント上回る。
- Container は 200 エポックで 79.9% Top-1 に収束するのに対し DeiT-S は 300 である。
- Container-Light は強い下流性能を可能にし、例えば RetinaNet 43.8 mAP、Mask-RCNN 45.1 mAP(ボックス)、41.3 mAP(マスク)を、ResNet-50 相当の計算量で達成。
- Container-Light は DETR および SMCA-DETR のバリアントを ResNet-50 のベースラインより改善(例: DETR-Container-Light で 38.9 mAP)。
- 自己教師付き学習(DINO)において、Container-Light は kNN 精度で DeiT を上回る(訓練エポック100で例: 71.5 対 69.6)。
- 静的アフィニティ拡張(Container-Pam)は小さくても一貫した利益を提供し、初期層で畳み込みに似た局所性が現れる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。