QUICK REVIEW

[論文レビュー] MogaNet: Multi-order Gated Aggregation Network

Siyuan Li, Zedong Wang|arXiv (Cornell University)|Nov 7, 2022

Human Pose and Action Recognition被引用数 21

ひとこと要約

MogaNet は、マルチオーダーのゲーム理論的相互作用をマルチオーダーゲート統合でバランスさせる純粋なConvNetであり、効率的なパラメータで強力なImageNet精度を達成し、下流のビジョンタスクで優れる。

ABSTRACT

By contextualizing the kernel as global as possible, Modern ConvNets have shown great potential in computer vision tasks. However, recent progress on multi-order game-theoretic interaction within deep neural networks (DNNs) reveals the representation bottleneck of modern ConvNets, where the expressive interactions have not been effectively encoded with the increased kernel size. To tackle this challenge, we propose a new family of modern ConvNets, dubbed MogaNet, for discriminative visual representation learning in pure ConvNet-based models with favorable complexity-performance trade-offs. MogaNet encapsulates conceptually simple yet effective convolutions and gated aggregation into a compact module, where discriminative features are efficiently gathered and contextualized adaptively. MogaNet exhibits great scalability, impressive efficiency of parameters, and competitive performance compared to state-of-the-art ViTs and ConvNets on ImageNet and various downstream vision benchmarks, including COCO object detection, ADE20K semantic segmentation, 2D&3D human pose estimation, and video prediction. Notably, MogaNet hits 80.0% and 87.8% accuracy with 5.2M and 181M parameters on ImageNet-1K, outperforming ParC-Net and ConvNeXt-L, while saving 59% FLOPs and 17M parameters, respectively. The source code is available at https://github.com/Westlake-AI/MogaNet.

研究の動機と目的

ローカルなテクスチャバイアスとグローバルな情報処理の限界に対処するため、マルチオーダーのゲーム理論的相互作用を通じて現代のConvNetの表現能力を探究する。
空間集約ブロックとチャネル集約ブロックを用いて、低次・中次・高次の相互作用をバランスさせる純粋なConvNetアーキテクチャ（MogaNet）を提案する。
効率的なゲート付きマルチオーダーコンテキスト集約が、最先端モデルと比較して少ないパラメータ/フロップでパフォーマンスを向上させ、さまざまなビジョンタスクで優位性を示す。
分類、検出、セグメンテーション、姿勢推定、動画予測など、多様なベンチマークで、小規模から大規模モデルサイズまでのMogaNetのスケーラビリティを示す。

提案手法

埋め込みステムを備えた4段階の純粋ConvNetアーキテクチャを導入し、各段でN_i個のMoga Blocksを配置する。
特徴分解モジュール（FD）と深さ方向畳み込み（DWConv）を複数の膨張設定で用いたマルチオーダーゲート統合（Moga）を組み合わせて、低次・中次・高次の相互作用を符号化する空間集約ブロック（SA）を設計する。
要素ごとゲーティングによって空間情報と文脈情報を融合するゲーティングベースのコンテキスト分岐（SiLU活性化）を用いる。
ミドルオーダーのチャネル相互作用を高める軽量な機構を備えた適応的チャネル再配分を可能にするチャネル集約モジュール（CA）を開発し、チャネル混合段（CMixer）に統合する。
並列DWConv経路の出力を連結してゲーティングを適用することにより、0次・中次・高次の相互作用をバランスさせ、計算コストを標準のDWConvベースラインに近い水準に保つ。

実験結果

リサーチクエスチョン

RQ1マルチオーダー相互作用の強度をバランスさせることで、純粋な畳み込みバックボーンをViT風アーキテクチャに匹敵する、あるいはそれを超える設計にすることはできるか。
RQ2マルチオーダーゲート統合（空間）とチャネル集約（チャネル）ブロックは、過度なFLOPsやパラメータを增やさずに表現効率と下流タスクの性能を改善するか。
RQ3効率的なパラメータ使用と既存のConvNet/ViTハイブリッドより優れた下流転送を達成しながら、さまざまなモデルサイズでImageNetの競争力のある性能を達成することは可能か。

主な発見

MogaNetはモデルスケール全体で強力なImageNet結果を達成し、同等設定でFLOPsとパラメータを節約しつつParC-Net-Sを上回るなど、同業他社と比べて顕著な効率を示す。
ImageNet-1Kで、MogaNet-Tは256^2解像度で80.0%のトップ1精度を精練訓練設定で達成し、224^2で79.0%を達成して、計算コストを抑えつつ最先端を上回る。
MogaNet-SはIN-1Kで83.4%のトップ1精度を達成し、Swin-TおよびConvNeXt-TをパラメータとFLOPsが少ない状態で上回る。
ImageNet-21Kで事前学習を行うと、MogaNet-XLはIN-1Kで87.8%のトップ1を181Mパラメータで達成し、事前学習なしでも強い性能を示す（224^2で85.1%）。
下流のビジョンタスク全般で、MogaNet系はバックボーンと比較して物体検出（例：MogaNet-Tを用いたMask R-CNNがSwin-Tを0.4 AP_b上回る）で勝り、ADE20Kで競争力のあるセマンティケーション結果を達成する。
総じて、MogaNetは容量だけではなく、効率的なパラメータ使用が分類、検出、セグメンテーション、姿勢推定のベンチマークで性能向上を推進することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。