[论文解读] RepMet: Representative-based metric learning for classification and one-shot object detection
该论文提出 RepMet,一种新颖的端到端距离度量学习方法,通过联合优化主干网络、嵌入空间以及多模态类别代表(混合模型模态),实现少样本分类与目标检测。在细粒度分类任务上达到最先进性能,并在 ImageNet-LOC 上基于新设计的 episodic 基准测试中,于少样本目标检测任务上创下新的 SOTA 记录,显著优于强基线方法。
Distance metric learning (DML) has been successfully applied to object classification, both in the standard regime of rich training data and in the few-shot scenario, where each category is represented by only a few examples. In this work, we propose a new method for DML that simultaneously learns the backbone network parameters, the embedding space, and the multi-modal distribution of each of the training categories in that space, in a single end-to-end training process. Our approach outperforms state-of-the-art methods for DML-based object classification on a variety of standard fine-grained datasets. Furthermore, we demonstrate the effectiveness of our approach on the problem of few-shot object detection, by incorporating the proposed DML architecture as a classification head into a standard object detection model. We achieve the best results on the ImageNet-LOC dataset compared to strong baselines, when only a few training examples are available. We also offer the community a new episodic benchmark based on the ImageNet dataset for the few-shot object detection task.
研究动机与目标
- 为解决少样本目标检测中的挑战,即每类仅有少量训练样本,设计一种鲁棒且可泛化的检测框架。
- 通过端到端联合学习嵌入空间与类别代表,提升少样本分类性能,避免交替训练方法的局限性。
- 提出基于 ImageNet-LOC 的新 episodic 基准,用于少样本目标检测,为未来方法提供标准化评估。
- 证明联合优化主干网络、嵌入空间与类别代表可带来更优的泛化能力与鲁棒性,尤其在存在背景干扰的开放集识别场景中。
提出的方法
- RepMet 将每种类别建模为嵌入空间中的多个模态混合,其中模态中心作为分类的代表向量。
- 该方法在单一统一架构中实现主干网络、嵌入空间与类别代表(混合模型参数)的端到端训练。
- 推理阶段,通过计算输入特征到各类别所学代表向量的距离来计算类别后验概率。
- 在少样本目标检测中,将标准 Faster R-CNN 检测器的分类头替换为所提出的 DML 子网络,该子网络采用基于代表向量的距离评分机制。
- 在推理过程中,对每个 episode 的特定训练数据进行微调,使模型能仅用少量样本即可适应新类别。
- 在端到端训练中采样背景候选区域,以提升判别能力,避免单独采样背景带来的效率低下问题。
实验结果
研究问题
- RQ1与交替训练或外部嵌入学习相比,主干网络、嵌入空间与类别代表的端到端联合训练是否能显著提升少样本分类性能?
- RQ2所提出的基于代表向量的度量学习方法在少样本目标检测中是否有效,尤其在低样本设置下存在背景干扰时?
- RQ3与使用随机或固定代表向量相比,联合优化嵌入与代表向量是否能带来对未见类别的更好泛化能力?
- RQ4基于 ImageNet-LOC 的新 episodic 基准是否能为少样本目标检测提供可靠且标准化的评估协议?
主要发现
- RepMet 在多个细粒度分类基准上达到 SOTA 性能,显著优于先前 SOTA 方法,如使用 Magnet Loss 或交替训练的方法。
- 在 ImageNet-LOC 少样本目标检测基准上,RepMet 在所有测试方法中取得最高 mAP,显著领先于强基线方法。
- 消融实验表明,'baseline-DML-external' 方法(使用未联合训练的外部嵌入)因背景拒绝能力差而产生高误报率,凸显了联合训练的重要性。
- 在 episode 特定数据上对最后一层和代表向量进行微调可进一步提升性能,证实了模型对新类别的适应能力。
- 模型在已见类别上保持强性能,当使用随机代表向量而非训练得到的代表向量时,mAP 仅轻微下降(例如约 7 个百分点),表明所学嵌入具有鲁棒性。
- 在 1-shot 检测基准上,模型实现 88.2% Recall@100 和 65.9% Recall@10,证明了其在单张图像检测中的高可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。