[论文解读] Omni-Scale Feature Learning for Person Re-Identification
OSNet 引入全尺度特征学习,使用轻量级多流块和统一聚合门动态融合多尺度特征,在小型模型下在六个 re-ID 数据集上实现了最新的性能水平。
As an instance-level recognition problem, person re-identification (ReID) relies on discriminative features, which not only capture different spatial scales but also encapsulate an arbitrary combination of multiple scales. We call features of both homogeneous and heterogeneous scales omni-scale features. In this paper, a novel deep ReID CNN is designed, termed Omni-Scale Network (OSNet), for omni-scale feature learning. This is achieved by designing a residual block composed of multiple convolutional streams, each detecting features at a certain scale. Importantly, a novel unified aggregation gate is introduced to dynamically fuse multi-scale features with input-dependent channel-wise weights. To efficiently learn spatial-channel correlations and avoid overfitting, the building block uses pointwise and depthwise convolutions. By stacking such block layer-by-layer, our OSNet is extremely lightweight and can be trained from scratch on existing ReID benchmarks. Despite its small model size, OSNet achieves state-of-the-art performance on six person ReID datasets, outperforming most large-sized models, often by a clear margin. Code and models are available at: \url{https://github.com/KaiyangZhou/deep-person-reid}.
研究动机与目标
- 激发需要捕捉同质与异质尺度(全尺度)以实现鲁棒的行人再识别的特征的需求。
- 设计一个从零开始即可高效学习全尺度特征的轻量级 CNN 架构。
- 提出一个带统一门控的多流残差块,用于按输入动态融合尺度特定特征。
提出的方法
- 引入 Lite 3x3 深度可分离卷积以减少参数量和计算量。
- 开发一个全尺度残差块(具有 T 条增大感受野的流)以捕获多种尺度。
- 实现一个统一聚合门,为 x^t 中的每个尺度 s 产生通道维的融合权重 G(x^t) ,实现输入依赖的动态融合。
- 在块内的所有流之间共享聚合门,以稳定训练并实现梯度流。
- 通过将轻量级瓶颈堆叠成完整网络来组装 OSNet,并可选地通过宽度和分辨率倍增进行缩放。
实验结果
研究问题
- RQ1在轻量级网络中学习的全尺度特征能否在行人再识别基准测试中超越更大骨干网模型?
- RQ2动态、输入条件的多尺度特征的通道级融合是否提升了再识别的判别能力?
- RQ3在标准 re-ID 数据集上,OSNet 从零开始训练与在 ImageNet 上微调的表现有何差异?
- RQ4所提出的全尺度方法对小数据集和相关任务(如属性识别)是否有效?
- RQ5架构选择(门控设计、流的基数 T 和融合策略)对性能有何影响?
主要发现
- OSNet 在六个 re-ID 数据集上达到最先进的性能,且通常明显优于基于更大 ResNet50 模型。
- 2.2M 参数的 OSNet 在使用轻量级 Lite 3x3 卷积的同时,优于许多更大的网络。
- 动态、通道级的统一聚合门实现了输入相关的多尺度特征融合,提升了判别能力。
- OSNet 在从零开始训练和从 ImageNet 微调时均表现出色,优于 MobileNetV2 和 ShuffleNet 等轻量基线。
- 消融研究显示全尺度设计、统一门控、通道权重和动态门对达到最佳 R1/mAP 的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。