[论文解读] Dual-stream Network for Visual Recognition
DS-Net 引入双流块,分别处理高分辨率的局部细节和低分辨率的全局模式,并通过跨尺度对齐进行融合,在 ImageNet 和 MSCOCO 上取得强结果。
Transformers with remarkable global representation capacities achieve competitive results for visual tasks, but fail to consider high-level local pattern information in input images. In this paper, we present a generic Dual-stream Network (DS-Net) to fully explore the representation capacity of local and global pattern features for image classification. Our DS-Net can simultaneously calculate fine-grained and integrated features and efficiently fuse them. Specifically, we propose an Intra-scale Propagation module to process two different resolutions in each block and an Inter-Scale Alignment module to perform information interaction across features at dual scales. Besides, we also design a Dual-stream FPN (DS-FPN) to further enhance contextual information for downstream dense predictions. Without bells and whistles, the proposed DS-Net outperforms DeiT-Small by 2.4% in terms of top-1 accuracy on ImageNet-1k and achieves state-of-the-art performance over other Vision Transformers and ResNets. For object detection and instance segmentation, DS-Net-Small respectively outperforms ResNet-50 by 6.4% and 5.5% in terms of mAP on MSCOCO 2017, and surpasses the previous state-of-the-art scheme, which significantly demonstrates its potential to be a general backbone in vision tasks. The code will be released soon.
研究动机与目标
- 在视觉模型中说明联合建模局部与全局模式的必要性。
- 提出一个保留双尺度表征的双流网络(DS-Net),以提升识别性能。
- 设计同尺度内部传播以处理双分辨率,并实现跨尺度对齐以融合。
- 将双流设计扩展到特征金字塔网络(DS-FPN),用于密集预测任务。
提出的方法
- 引入双流块(DS-Blocks),将特征分为局部(高分辨率)和全局(低分辨率)路径。
- 使用深度可分卷积的3x3 对局部特征进行处理,以捕捉微粒细节。
- 使用对下采样后的 token 序列自注意力来处理全局特征,以捕捉对象级关系。
- 通过协同注意力实现跨尺度对齐,双向融合局部和全局表征。
- 将 DS-Blocks 附加到 FPN 上,形成 DS-FPN,以增强多尺度上下文。
实验结果
研究问题
- RQ1一个双流架构是否能够有效地区分视觉信息中的局部和全局信息,以用于分类和密集预测任务?
- RQ2同尺度内传播和跨尺度对齐是否能够改进跨尺度特征融合,相较于简单融合方法?
- RQ3与标准 FPN 相比,DS-FPN 是否对目标检测和实例分割带来可度量的提升?
- RQ4本地/全局特征比对对性能有哪些影响?
主要发现
| Method | Params (M) | FLOPs (G) | Throughput (Images/s) | Top-1 | Top-5 |
|---|---|---|---|---|---|
| DS-Net-T (ours) | 9.1 | 1.6 | 1199 | 78.1 | |
| DS-Net-T* (ours) | 10.5 | 1.8 | 1034 | 79.0 | (+6.8) |
| DS-Net-S (ours) | 19.7 | 3 | 582 | 81.9 | |
| DS-Net-S* (ours) | 23 | 3.5 | 510 | 82.3 | (+2.4) |
| DS-Net-B (ours) | 48.8 | 7.6 | 387 | 82.8 | |
| DS-Net-B* (ours) | 49.3 | 8.4 | 335 | 83.1 | (+1.3) |
- DS-Net 在 ImageNet-1k 上的 top-1 准确率比 DeiT-Small 高出 2.4%。
- DS-Net 的变体在 ImageNet 分类任务中,与 Vision Transformer 和 CNNs 一样具有竞争力或处于最先进水平。
- 在 MSCOCO 2017 上,DS-Net-S* 相较于 RetinaNet(ResNet-50)提升 6.4% 的 APbbox,相较于 Mask R-CNN 提升 6.1% 的 APbbox。
- DS-Net-S* 在实例分割上达到 40.2% 的 AP,分别比 ResNet-50 和 Swin-T 高出 5.5% 和 0.4%。
- DS-Net-T* 与 DS-Net-S* 相较于未对齐的对应版本,显示出跨尺度对齐带来的额外增益。
- DS-FPN 搭配 DS-Blocks 在对象检测和实例分割任务的 mAP 相较标准 FPN 有提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。