Skip to main content
QUICK REVIEW

[论文解读] Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning

Gongjie Zhang, Zhipeng Luo|arXiv (Cornell University)|Mar 22, 2021
Domain Adaptation and Few-Shot Learning被引用 39
一句话总结

Meta-DETR 提出了一种统一的图像级元学习框架,用于少样本目标检测,通过类别无关的解码器直接生成特定类别的目标检测结果,从而绕过区域级别的预测。它通过引入语义对齐机制来增强特征泛化能力,在多个基准测试中实现了最先进性能。

ABSTRACT

Few-shot object detection aims at detecting novel objects with only a few annotated examples. Prior works have proved meta-learning a promising solution, and most of them essentially address detection by meta-learning over regions for their classification and location fine-tuning. However, these methods substantially rely on initially well-located region proposals, which are usually hard to obtain under the few-shot settings. This paper presents a novel meta-detector framework, namely Meta-DETR, which eliminates region-wise prediction and instead meta-learns object localization and classification at image level in a unified and complementary manner. Specifically, it first encodes both support and query images into category-specific features and then feeds them into a category-agnostic decoder to directly generate predictions for specific categories. To facilitate meta-learning with deep networks, we design a simple but effective Semantic Alignment Mechanism (SAM), which aligns high-level and low-level feature semantics to improve the generalization of meta-learned representations. Experiments over multiple few-shot object detection benchmarks show that Meta-DETR outperforms state-of-the-art methods by large margins.

研究动机与目标

  • 为解决在仅提供少量标注样本的新类别下进行少样本目标检测的挑战。
  • 克服现有元学习检测器对高质量区域提议的依赖,这些提议在少样本场景中往往不可靠。
  • 将目标定位与分类统一为单一的图像级预测框架,消除区域级别的精炼过程。
  • 通过高层与低层特征之间的语义对齐,提升元学习表示的泛化能力。
  • 通过一种新颖的端到端元学习架构,在少样本目标检测基准测试中实现最先进性能。

提出的方法

  • 该框架使用共享主干网络将支持图像和查询图像编码为特定类别的特征。
  • 一个类别无关的解码器处理编码后的特征,直接在图像级别为特定类别生成目标检测预测。
  • 引入语义对齐机制(SAM),以对齐高层与低层特征之间的语义,增强表示泛化能力。
  • 在多个episode中进行元学习,每个episode包含一个仅含少量样本的支持集和一个用于评估的查询集。
  • 模型通过检测头端到端训练,统一预测边界框和类别标签。
  • 解码器使用交叉注意力机制关注支持特征并生成查询预测,从而实现少样本泛化。

实验结果

研究问题

  • RQ1统一的图像级元学习框架是否能在少样本目标检测中超越基于区域的元检测方法?
  • RQ2消除对区域提议的依赖在少样本设置下如何提升检测性能?
  • RQ3高层与低层特征之间的语义对齐在多大程度上增强了元学习表示的泛化能力?
  • RQ4在图像级特征上训练的类别无关解码器是否比基于区域的头具有更好的少样本泛化能力?
  • RQ5Meta-DETR 在多个少样本检测基准测试中与最先进方法相比表现如何?

主要发现

  • Meta-DETR 在多个少样本目标检测基准测试中实现了最先进性能,显著优于现有方法。
  • 该模型通过消除对初始定位良好的区域提议的依赖,展现出更优的泛化能力,而这些提议在少样本场景中往往不可靠。
  • 语义对齐机制显著提升了特征表示质量,从而在各episode中实现更高的检测准确率。
  • 统一的图像级检测框架相比基于区域的适应策略,能更有效地进行元学习。
  • 定量结果表明,在标准少样本目标检测基准测试中,相比先前方法实现了持续改进,尽管提供的文本中未明确给出具体的mAP值。
  • 消融研究证实了所提组件(包括解码器设计和SAM)在提升性能方面的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。