[论文解读] Meta-DETR: Image-Level Few-Shot Object Detection with Inter-Class Correlation Exploitation
Meta-DETR 提出了一种新颖的图像级少样本目标检测框架,通过在 DETR 架构中引入元学习,克服了区域提议的局限性,并显式利用支持类别之间的类间相关性。通过使用相关性聚合模块(CAM)同时关注多个支持类别,该方法提升了泛化能力并减少了相似类别之间的误分类,在多个基准测试中实现了最先进性能。
Few-shot object detection has been extensively investigated by incorporating meta-learning into region-based detection frameworks. Despite its success, the said paradigm is constrained by several factors, such as (i) low-quality region proposals for novel classes and (ii) negligence of the inter-class correlation among different classes. Such limitations hinder the generalization of base-class knowledge for the detection of novel-class objects. In this work, we design Meta-DETR, a novel few-shot detection framework that incorporates correlational aggregation for meta-learning into DETR detection frameworks. Meta-DETR works entirely at image level without any region proposals, which circumvents the constraint of inaccurate proposals in prevalent few-shot detection frameworks. Besides, Meta-DETR can simultaneously attend to multiple support classes within a single feed-forward. This unique design allows capturing the inter-class correlation among different classes, which significantly reduces the misclassification of similar classes and enhances knowledge generalization to novel classes. Experiments over multiple few-shot object detection benchmarks show that the proposed Meta-DETR outperforms state-of-the-art methods by large margins. The implementation codes will be released at https://github.com/ZhangGongjie/Meta-DETR.
研究动机与目标
- 为解决基于区域的少样本检测方法的局限性,特别是针对新类别生成的低质量区域提议问题。
- 克服现有基于元学习的检测器在逐个处理一个支持类别时忽略类间相关性的缺陷。
- 通过建模相似或相关物体类别之间的关系,实现从基础类别到新类别的有效知识泛化。
- 设计一种纯图像级的元检测框架,避免生成区域提议,提升在低样本设置下的鲁棒性。
- 验证新型相关性聚合模块(CAM)在增强特征对齐和减少相似类别间误分类方面的有效性。
提出的方法
- 提出 Meta-DETR,一种基于元学习的少样本目标检测器,构建于 DETR 框架之上,完全在图像级别运行,无需区域提议。
- 采用相关性聚合模块(CAM),在特征聚合过程中实现对多个支持类别的同时关注,捕捉类别间的共性与差异。
- 使用原型和任务编码来表示背景,以更好地处理查询特征与任何支持类别均不匹配的场景。
- 在图像级别应用元学习,使模型能够将基础类别的知识泛化到新类别,而无需依赖区域级别的监督信号。
- 利用可学习的查询嵌入和 DETR 中的对象查询,通过查询与图像特征之间的交叉注意力实现端到端检测。
- 引入多头注意力机制,联合关注支持特征和查询特征,实现对类别间关系的联合建模。
实验结果
研究问题
- RQ1纯图像级元检测框架是否能通过消除对低质量区域提议的依赖,在少样本目标检测中超越基于区域的方法?
- RQ2同时聚合多个支持类别是否能提升检测性能并减少相似类别间的误分类?
- RQ3显式建模类间相关性在低样本设置下对新类别泛化能力的提升程度如何?
- RQ4同时聚合的支持类别数量如何影响检测性能和模型容量?
- RQ5所提出的相关性聚合模块(CAM)能否有效迁移至现有的基于区域的元检测框架中?
主要发现
- Meta-DETR 在多个少样本检测基准上实现了最先进性能,显著优于先前方法,尤其在低样本设置下表现突出。
- 在 1-shot 检测设置下,Meta-DETR 在 Pascal VOC 上达到 59.3% 的 mAP@0.5,较无 CAM 的基线模型提升 4.8%。
- 在 2-shot 检测中,相关性聚合模块(CAM)使性能提升 5.0% mAP,证明其在利用类间相关性方面的有效性。
- 当应用于基于区域的 FsDetView 框架时,CAM 在 5-shot 设置下使 mAP 提升最高达 5.9%,证实其强大的可迁移性。
- t-SNE 可视化结果表明,CAM 使特征空间中物体类别的分离更加清晰,显著减少了如牛与绵羊等相似类别之间的混淆。
- 当同时聚合的支持类别超过 5 个时,性能开始下降,表明在相关性利用与模型容量之间存在权衡,因此将 5 作为默认聚合类别数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。