QUICK REVIEW

[논문 리뷰] MogaNet: Multi-order Gated Aggregation Network

Siyuan Li, Zedong Wang|arXiv (Cornell University)|2022. 11. 07.

Human Pose and Action Recognition인용 수 21

한 줄 요약

MogaNet은 다중 차수 게임 이론적 상호작용을 다중 차수 게이티드 집계를 통해 균형 있게 다루는 순수 ConvNet으로, 효율적인 파라미터로 강한 ImageNet 정확도를 달성하고 다운스트림 비전 작업에서 뛰어납니다.

ABSTRACT

By contextualizing the kernel as global as possible, Modern ConvNets have shown great potential in computer vision tasks. However, recent progress on multi-order game-theoretic interaction within deep neural networks (DNNs) reveals the representation bottleneck of modern ConvNets, where the expressive interactions have not been effectively encoded with the increased kernel size. To tackle this challenge, we propose a new family of modern ConvNets, dubbed MogaNet, for discriminative visual representation learning in pure ConvNet-based models with favorable complexity-performance trade-offs. MogaNet encapsulates conceptually simple yet effective convolutions and gated aggregation into a compact module, where discriminative features are efficiently gathered and contextualized adaptively. MogaNet exhibits great scalability, impressive efficiency of parameters, and competitive performance compared to state-of-the-art ViTs and ConvNets on ImageNet and various downstream vision benchmarks, including COCO object detection, ADE20K semantic segmentation, 2D&3D human pose estimation, and video prediction. Notably, MogaNet hits 80.0% and 87.8% accuracy with 5.2M and 181M parameters on ImageNet-1K, outperforming ParC-Net and ConvNeXt-L, while saving 59% FLOPs and 17M parameters, respectively. The source code is available at https://github.com/Westlake-AI/MogaNet.

연구 동기 및 목표

현대 ConvNets의 표현 용량을 다중 차수 게임 이론적 상호작용을 통해 탐구하여 국소 질감 편향과 전역 정보 처리의 한계를 해결한다.
공간적 집계와 채널 집계 블록을 사용하여 저차수-중간수-고차수 상호작용의 균형을 이루는 순수 ConvNet 아키텍처(MogaNet)를 제안한다.
전이 비용과 파라미터 수를 현저히 줄이면서도 효율적인 게이팅 기반 다중 차수 컨텍스트 집계가 최신 모델 대비 성능을 개선한다.
다양한 모델 크기에서 MogaNet의 확장성을 입증하고, 분류, 탐지, 분할, 포즈 추정, 비디오 예측 등 다양한 벤치마크에서의 성능을 평가한다.

제안 방법

임베딩 스템이 있는 네 단계의 순수 ConvNet 아키텍처를 도입하고 각 단계마다 N_i Moga Blocks를 배치한다.
FD(feature decomposition module)와 다중 차수 게이팅 어그리게이션(Moga)을 사용하여 저차수, 중간수, 고차수 상호작용을 인코딩하기 위해 다중 확장 설정에서 깊이별 컨볼루션(DWConv)을 적용한 공간적 집계 블록(SA)을 설계한다.
스페이스 정보와 컨텍스트 정보를 엘리먼트 단위 게이팅으로 융합하기 위해 SiLU 활성화가 있는 게이팅 기반 컨텍스트 분기(SiLU-activated)를 사용한다.
경량화된 메커니즘으로 채널 간 재할당을 가능하게 하는 채널 집계 모듈(CA)을 개발하여 중간차수 채널 상호작용을 강화하고, CMixer의 채널 혼합 스테이지에 CA를 통합한다.
병렬 DWConv 경로의 출력을 연결하고 게이팅을 적용하여 0차, 중간차수, 고차수 상호작용의 균형을 맞추고 계산 비용을 표준 DWConv 벤치마크에 가깝게 유지한다.

실험 결과

연구 질문

RQ1순수 합성곱 백본을 설계하여 다중 차수 상호작용 강도의 균형으로 ViT 스타일 아키텍처를 능가하거나 동등하게 만들 수 있는가?
RQ2다중 차수 게이팅 집적(spatial)과 채널 집적(channel) 블록이 표현 효율성과 다운스트림 작업 성능을 FLOPs나 파라미터를 과도하게 늘리지 않고 향상시키는가?
RQ3효율적인 파라미터 사용으로 다양한 모델 크기에서 이미지넷(ImageNet) 성능을 경쟁력 있게 달성하고 기존 ConvNet/ViT 하이브리드보다 더 나은 다운스트림 전달 성능을 보일 수 있는가?

주요 결과

MogaNet은 모델 규모에 상관없이 강력한 ImageNet 결과를 달성하며, 동료들에 비해 상당한 효율성을 보이는 것으로 나타났고(예: ParC-Net-S를 능가하면서도 비슷한 설정에서 FLOPs와 파라미터를 절감).
ImageNet-1K에서 MogaNet-T는 256^2 해상도에서 정제된 학습 설정으로 상위 1% 정확도 80.0%를 달성하고 224^2에서 79.0%를 달성하여 더 낮은 계산 비용으로 최첨단을 넘어섰다.
MogaNet-S는 IN-1K에서 83.4% 상위 1% 정확도에 도달하여 Swin-T 및 ConvNeXt-T를 파라미터와 FLOPs가 더 적은 상태로 능가한다.
ImageNet-21K에서 사전 학습(pre-training) 시 MogaNet-XL은 IN-1K에서 87.8% 상위 1%를 181M 파라미터로 달성하고, 사전 학습 없이도 강한 성능(224^2에서 85.1%)을 보인다.
다운스트림 비전 작업 전반에서 MogaNet 변형들이 백본 동료들보다 물체 감지(Object Detection; 예: MogaNet-T로 Mask R-CNN이 Swin-T를 0.4 AP_b 상회) 및 ADE20K에서 경쟁력 있는 세그먼테이션 성능을 보인다.
전반적으로 MogaNet은 용량이 아닌 효율적 파라미터 사용이 분류, 탐지, 세그먼테이션, 포즈 추정 벤치마크에서 성능 향상의 원동력임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.