[论文解读] Multiregion Bilinear Convolutional Neural Networks for Person Re-Identification
本文提出多区域双线性卷积神经网络(MR B-CNN)用于行人重识别,通过在局部图像区域而非全局范围内应用双线性池化,提升特征表示能力,保留空间结构。该方法在Market-1501、CUHK01和CUHK03数据集上达到最先进性能,通过学习局部化的、乘法型的特征交互,获得更具判别性的嵌入表示,优于标准CNN和全局双线性CNN。
In this work we propose a new architecture for person re-identification. As the task of re-identification is inherently associated with embedding learning and non-rigid appearance description, our architecture is based on the deep bilinear convolutional network (Bilinear-CNN) that has been proposed recently for fine-grained classification of highly non-rigid objects. While the last stages of the original Bilinear-CNN architecture completely removes the geometric information from consideration by performing orderless pooling, we observe that a better embedding can be learned by performing bilinear pooling in a more local way, where each pooling is confined to a predefined region. Our architecture thus represents a compromise between traditional convolutional networks and bilinear CNNs and strikes a balance between rigid matching and completely ignoring spatial information. We perform the experimental validation of the new architecture on the three popular benchmark datasets (Market-1501, CUHK01, CUHK03), comparing it to baselines that include Bilinear-CNN as well as prior art. The new architecture outperforms the baseline on all three datasets, while performing better than state-of-the-art on two out of three. The code and the pretrained models of the approach can be found at https://github.com/madkn/MultiregionBilinearCNN-ReId.
研究动机与目标
- 解决由于姿态、光照变化以及衣物相似性导致的行人重识别中外观差异大的挑战。
- 通过在双线性CNN中保留局部空间结构,改善特征表示,避免因全局池化而丢失几何信息。
- 开发一种介于标准CNN与全局双线性CNN之间的折中架构,平衡对不变性的追求与对空间敏感度的保持。
- 通过利用局部双线性池化,在主要重识别基准上实现最先进性能。
提出的方法
- 该架构将输入图像划分为三个水平区域(上半身、中部、下半身),以应用区域特定的双线性池化。
- 对每个区域,双线性操作计算两个流网络激活图的外积,随后进行局部平均池化。
- 将所得的区域双线性特征拼接后,通过全连接层与Dropout进行描述符学习。
- 使用直方图损失进行模型训练,以优化度量学习,支持通过余弦或欧氏距离进行有效比较。
- 采用多尺度特征提取策略,各区域共享卷积层,以保持参数效率。
- 在CUHK03上进行预训练,并在CUHK01上进行微调,以提升在小样本数据集上的泛化能力。
实验结果
研究问题
- RQ1与全局池化相比,局部双线性池化是否能提升双线性CNN在行人重识别中的性能?
- RQ2在双线性特征中保留空间结构是否能带来更好的判别性嵌入表示以用于重识别?
- RQ3所提出的多区域双线性CNN与标准CNN及全局双线性CNN相比,在标准基准上的表现如何?
- RQ4该架构在数据规模和标注质量各异的数据集上是否具备良好的泛化能力?
- RQ5为最大化重识别任务性能,最优的区域大小与池化策略是什么?
主要发现
- 在Market-1501数据集上,MR B-CNN的召回率@1达到66.36%,优于基线CNN(56.62%)和全局B-CNN(63.67%)。
- 在CUHK01数据集上,MR B-CNN在单次采样协议下的召回率@1达到52.88%,超过基线CNN(48.04%)和全局B-CNN(47.53%)。
- 在CUHK03-标注数据集上,MR B-CNN的召回率@1达到87.06%,优于全局B-CNN(85.75%)和基线CNN(82.15%)。
- 在Market-1501上,模型的平均精度均值(mAP)达到41.17%,超过基线CNN(32.97%),并优于先前最先进方法。
- 消融实验表明,全局双线性池化因丢失空间结构而表现较差,而区域池化在所有数据集上均显著提升性能。
- 该架构泛化能力良好,在三个基准数据集中的两个(Market-1501和CUHK03)达到最先进结果,且在CUHK01上也表现出色。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。