[论文解读] Augmenting Convolutional networks with attention-based aggregation
该论文通过在卷积神经网络中增加一个基于注意力的全局聚合层来对图像补丁进行加权以用于分类,从而在保持固定补丁分辨率及在分类、分割和检测任务上获得良好准确率-内存权衡的同时实现非局部推理。
We show how to augment any convolutional network with an attention-based global map to achieve non-local reasoning. We replace the final average pooling by an attention-based aggregation layer akin to a single transformer block, that weights how the patches are involved in the classification decision. We plug this learned aggregation layer with a simplistic patch-based convolutional network parametrized by 2 parameters (width and depth). In contrast with a pyramidal design, this architecture family maintains the input patch resolution across all the layers. It yields surprisingly competitive trade-offs between accuracy and complexity, in particular in terms of memory consumption, as shown by our experiments on various computer vision tasks: object classification, image segmentation and detection.
研究动机与目标
- 引入一个学习的、基于注意力的池化层,以取代卷积网络中的标准平均池化。
- 开发一个简单的基于补丁的主干(PatchConvNet),在各层保持恒定输入分辨率。
- 提供每个补丁的可解释注意力图,使得能可视化补丁贡献。
- 在图像分类、分割和检测上展示有竞争力的准确率-内存权衡。
提出的方法
- 将最终的平均池化替换为使用类令牌对图像补丁进行关注的交叉注意力池化层。
- 引入 PatchConvNet,一个在各层保持固定维度的基于补丁的主干,由轻量级卷积干和残差块构成。
- 可选地通过使用每个类别的类令牌矩阵对注意力图进行类别专用。
- 使用受 DeiT 启发的训练方案,包含 Lamb 优化器、半余弦调度、标签平滑、RandAugment、Mixup、CutMix、Stochastic Depth、LayerNorm/BatchNorm 选择。
- 提供单头注意力以便可解释且减少内存占用;直接从池化阶段可视化注意力图。
实验结果
研究问题
- RQ1注意力基聚合层是否能在保持性能与可解释性的同时替代卷积神经网络中的传统池化?
- RQ2保持恒定的补丁分辨率(PatchConvNet)是否在准确率上具有竞争力,并且相对于金字塔式架构在内存与计算权衡方面更有利?
- RQ3每个类别一个类令牌的注意力在分类任务中的可解释性与性能有何影响?
- RQ4PatchConvNet 在不同数据集和分辨率下的训练动力学与超参数敏感性(如随机深度、归一化)?
- RQ5与最先进架构相比,所提模型在分割和检测任务上与分类一起的性能如何?
主要发现
- 基于注意力的池化提供直接的补丁贡献权重,便于解释的可视化。
- PatchConvNet 在与许多基于注意力的模型相比时,在内存使用方面更有利且达到有竞争力的 Top-1 准确率。
- 更高的输入分辨率提升准确率,内存规模线性增长且没有繁重的金字塔下采样。
- 学习到的池化在集成到 ResNet-50 时提升了性能,FLOPs 增长适中。
- 在 ImageNet21k 上预训练并在更高分辨率细调的模型,在准确率上优于 224-site 的预训练。
- PatchConvNet 在语义分割(ADE20k)和目标检测(COCO)上取得有竞争力的结果,FLOPs 与内存与基线相当。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。