[论文解读] MogaNet: Multi-order Gated Aggregation Network
MogaNet 是一个纯卷积神经网络,通过多阶门控聚合平衡多阶博弈式交互,在参数高效的情况下实现强大的ImageNet精度,并在下游视觉任务上表现出色。
By contextualizing the kernel as global as possible, Modern ConvNets have shown great potential in computer vision tasks. However, recent progress on multi-order game-theoretic interaction within deep neural networks (DNNs) reveals the representation bottleneck of modern ConvNets, where the expressive interactions have not been effectively encoded with the increased kernel size. To tackle this challenge, we propose a new family of modern ConvNets, dubbed MogaNet, for discriminative visual representation learning in pure ConvNet-based models with favorable complexity-performance trade-offs. MogaNet encapsulates conceptually simple yet effective convolutions and gated aggregation into a compact module, where discriminative features are efficiently gathered and contextualized adaptively. MogaNet exhibits great scalability, impressive efficiency of parameters, and competitive performance compared to state-of-the-art ViTs and ConvNets on ImageNet and various downstream vision benchmarks, including COCO object detection, ADE20K semantic segmentation, 2D&3D human pose estimation, and video prediction. Notably, MogaNet hits 80.0% and 87.8% accuracy with 5.2M and 181M parameters on ImageNet-1K, outperforming ParC-Net and ConvNeXt-L, while saving 59% FLOPs and 17M parameters, respectively. The source code is available at https://github.com/Westlake-AI/MogaNet.
研究动机与目标
- 通过多阶博弈式交互来探索现代卷积神经网络的表示能力,以解决局部纹理偏差和全局信息处理的局限性。
- 提出一种纯卷积架构(MogaNet),通过空间聚合和通道聚合模块在低阶、中阶和高阶交互之间实现平衡。
- 证明高效的门控多阶上下文聚合在参数/浮点运算更少的情况下改善性能,并在多种视觉任务上实现更好性能。
- 展示 MogaNet 在从小到大模型规模以及多样化基准(分类、检测、分割、姿态估计、视频预测)上的可扩展性。
提出的方法
- 引入具备嵌入干线的四阶段纯卷积网络架构,在每阶段后跟随 N_i 个 Moga Block。
- 设计一个空间聚合块(SA),通过特征分解模块(FD)和带深度卷积(DWConv)的多阶门控聚合(Moga),在不同膨胀设置下编码低阶、中阶和高阶交互。
- 使用门控式上下文分支(SiLU 激活)通过逐元素门控将空间信息与上下文信息融合。
- 开发一个通道聚合模块(CA),通过轻量化机制实现自适应的通道级再分配,以增强中阶通道交互;将 CA 集成到通道混合阶段(CMixer)。
- 通过并行 DWConv 路径的输出连接并应用门控,平衡 0 阶、中阶和高阶交互;使计算成本接近标准 DWConv 基线。
实验结果
研究问题
- RQ1是否可以设计一个纯卷积骨架,通过平衡多阶交互强度来达到或超过 ViT 风格的架构?
- RQ2多阶门控聚合(空间)和通道聚合(通道)模块是否在不产生过多 FLOPs 或参数的情况下提升表示效率和下游任务表现?
- RQ3是否有可能在不同模型尺寸范围内实现与现有 ConvNet/ViT 混合体相比更高效参数使用率和更好的下游迁移性能的 ImageNet 竞争性能?
主要发现
- MogaNet 在不同模型规模上实现了强劲的 ImageNet 结果,相对于同行具有显著的效率优势(例如在类似设置下超越 ParC-Net-S,同时节省 FLOPs 和参数)。
- 在 ImageNet-1K 上,MogaNet-T 在 256^2 分辨率下通过精炼的训练设置达到 80.0% 的 top-1 精度,在 224^2 下为 79.0%,在更低计算成本下超越最先进模型。
- MogaNet-S 在 IN-1K 上达到 83.4% 的 top-1 精度,超越 Swin-T 和 ConvNeXt-T,且参数和 FLOPs 更少。
- 在 ImageNet-21K 的预训练下,MogaNet-XL 在 IN-1K 上达到 87.8% 的 top-1,参数 181M,并且在不进行预训练时也表现出色(224^2 下 85.1%)。
- 在下游视觉任务中,MogaNet 的变体在目标检测(例如使用 MogaNet-T 的 Mask R-CNN 比 Swin-T 高出 0.4 AP_b)并在 ADE20K 上取得具有竞争力的分割结果。
- 总体而言,MogaNet 表明高效的参数使用,而不仅是容量,是在分类、检测、分割和姿态估计基准上推动性能提升的关键。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。