[论文解读] The Devil is in the Middle: Exploiting Mid-level Representations for Cross-Domain Instance Matching
本文表明,中层 CNN 特征图包含用于跨域实例匹配的判别性、领域不变信息,并应与最终层特征融合,在 FG-SBIR 和人 ReID 上达到最新的行业领先水平。
Many vision problems require matching images of object instances across different domains. These include fine-grained sketch-based image retrieval (FG-SBIR) and Person Re-identification (person ReID). Existing approaches attempt to learn a joint embedding space where images from different domains can be directly compared. In most cases, this space is defined by the output of the final layer of a deep neural network (DNN), which primarily contains features of a high semantic level. In this paper, we argue that both high and mid-level features are relevant for cross-domain instance matching (CDIM). Importantly, mid-level features already exist in earlier layers of the DNN. They just need to be extracted, represented, and fused properly with the final layer. Based on this simple but powerful idea, we propose a unified framework for CDIM. Instantiating our framework for FG-SBIR and ReID, we show that our simple models can easily beat the state-of-the-art models, which are often equipped with much more elaborate architectures.
研究动机与目标
- 动机并解决跨域实例匹配(CDIM)问题,在不同域下捕捉到的物体(如照片-素描、多镜头 ReID)之间进行匹配。
- 论证中层特征存在于早期的 CNN 层,并且在与高层特征共同作用于 CDIM 时至关重要。
- 提出一种统一的体系结构模式,将中层表示与最终层特征融合。
- 通过 FG-SBIR 和人 ReID 的实现来证明该方法,并取得行业领先的结果。
提出的方法
- 提出一个三部曲的 CDIM 设计模式:一个 CNN 基础网络、一个融合模块和一个损失模块。
- 从选定的中间层提取中层特征图,将其转换为中层特征向量,并在不过度降维的情况下与最终层特征融合。
- 对于 FG-SBIR,将中层 conv5 特征展平以保留空间信息,并与最终层 fc7 特征拼接,使用三元组 ranking 损失进行训练。
- 对于 ReID,对中层 res5a/res5b 特征应用全局平均池化,将其与顶部层的池化特征拼接,并用 softmax 分类损失进行训练。
- 表明中层特征需要深层监督和针对任务的汇聚策略(FG-SBIR 采用展平,ReID 采用 GAP)。
- 证明将中层与高层特征融合相较于原生最终层表示和基于注意力的基线,可以获得更好的性能。
实验结果
研究问题
- RQ1CNN 的中层表示是否包含对 CDIM 有用的领域不变判别线索?
- RQ2简单地将中层特征图与最终层特征融合,是否能超过更复杂的基于注意力的 CDIM 方法?
- RQ3什么样的汇聚策略和层选择可以最大化中层特征融合在 FG-SBIR 和人 ReID 上的效果?
主要发现
- 中层特征图携带对跨域匹配有用的判别性、空间定位的线索。
- 简单地将中层和最终层特征融合并带有深层监督,提升了 CDIM 相对于基线的性能。
- 所提出的方法在 FG-SBIR 数据集(鞋子、椅子、手提包)和三个行人 ReID 基准数据集(Market-1501、DukeMTMC_reID、CUHK03-New)上达到新的行业领先水平。
- 任务特定的汇聚(FG-SBIR 的展平;ReID 的 GAP)以及在接近最终层处融合中层层次是有益的。
- 在不同基础网络(Sketch-a-Net、ResNet-50、InceptionV3)上使用中层特征能持续提升性能,验证了该框架的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。