[论文解读] Multi-Level Factorisation Net for Person Re-Identification
MLFN 自动发现并在多个语义层次动态选择潜在判别因子,融合紧凑的 Factor Signature 与深度特征,以实现最先进的人员再识别结果。
Key to effective person re-identification (Re-ID) is modelling discriminative and view-invariant factors of person appearance at both high and low semantic levels. Recently developed deep Re-ID models either learn a holistic single semantic level feature representation and/or require laborious human annotation of these factors as attributes. We propose Multi-Level Factorisation Net (MLFN), a novel network architecture that factorises the visual appearance of a person into latent discriminative factors at multiple semantic levels without manual annotation. MLFN is composed of multiple stacked blocks. Each block contains multiple factor modules to model latent factors at a specific level, and factor selection modules that dynamically select the factor modules to interpret the content of each input image. The outputs of the factor selection modules also provide a compact latent factor descriptor that is complementary to the conventional deeply learned features. MLFN achieves state-of-the-art results on three Re-ID datasets, as well as compelling results on the general object categorisation CIFAR-100 dataset.
研究动机与目标
- 在跨越多层语义级别的前提下,建模具有区分性且视角不变的人员外观因子以用于 Re-ID。
- 提出一个深层架构,在无需手动属性标注的情况下发现潜在因子。
- 实现紧凑的多级因子表示,并将其与传统深度特征融合以提升识别效果。
- 通过捷径连接提供对学习到的因子的深度监督。
- 在主要 Re-ID 基准上展示最先进的性能,并展示对 CIFAR-100 的适用性。
提出的方法
- 引入由堆叠块组成的多层因子化网络(MLFN);每个块包含多个 Factor Modules (FMs) 和一个 Factor Selection Module (FSM)。
- FSMs 动态激活 FMs 的子集以在特定语义层次建模潜在因子。
- 通过把所有块中的 FSM 输出串联,产生 Factor Signature (FS),表示多层因子。
- 通过共享投影将最后一个块的特征与 FS 融合,形成最终表示 R。
- 端到端训练,使用身份分类损失;利用跳跃连接和基于 FS 的深度监督以提升因子区分性。
- 将 MLFN 解释为 ResNeXt 和 Mixture-of-Experts 的推广,具备动态因子选择和紧凑的语义描述符。
- 可选仅使用 FS 进行属性类比匹配,以揭示潜在属性相关性。
实验结果
研究问题
- RQ1在没有属性标注的情况下,是否能够自动发现潜在的多层外观因子?
- RQ2对每个输入动态选择的 Factor Modules (FSMs) 是否在各语义层次上提供具有判别力、视角不变的特征?
- RQ3将紧凑的 Factor Signature 与最终深度特征结合,是否比单独的传统深度特征提升 Re-ID 性能?
- RQ4学习到的潜在因子是否对应可解释的属性并有助于跨数据集的泛化?
- RQ5该方法是否有能力在主要的人员 Re-ID 基准以及一般对象分类任务中达到最先进的结果?
主要发现
- MLFN 在 Market-1501、CUHK03 与 DukeMTMC-reID 数据集上取得最先进的结果。
- 在 Market-1501,MLFN 对 SQ 达到 R1=90.0、mAP=74.3;对 MQ 达到 R1=92.3、mAP=82.4。
- 在 CUHK03 Setting 1(检测到的边界框)下,MLFN 达到 82.8% R1 和 89.2% mAP;在检测数据的更强设定下,达到 89.2% R1 及更高。
- 在 CUHK03 Setting 2,MLFN 达到 54.7% R1 和 49.2% mAP(有标签),以及 52.8% R1 和 47.8% mAP(检测)。
- 在 DukeMTMC-reID,MLFN 达到 81.0% R1 和 62.8% mAP。
- MLFN-Fusion(含 FS)优于 ResNeXt 和 ResNet 基线;基于 FSM 的动态因子选择相对于消融变体带来显著提升。
- 仅 FS 就提供了具有竞争力的归因式性能,当 FS 与深度特征融合时,R 值提升。
- 发现的潜在因子在视觉上与跨层语义属性对齐,从颜色/纹理演变到服装风格和性别,且无需属性监督。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。