[论文解读] Exploring Categorical Regularization for Domain Adaptive Object Detection
本文提出了一种类别正则化框架,通过利用图像级多标签分类和实例级预测一致性,聚焦于关键区域和难对齐实例,从而提升域自适应目标检测的性能。该方法作为插件集成至DA Faster R-CNN,可在多种域偏移场景(包括天气、场景和风格适应)下实现最先进性能,mAP相比基线最高提升2.0%。
In this paper, we tackle the domain adaptive object detection problem, where the main challenge lies in significant domain gaps between source and target domains. Previous work seeks to plainly align image-level and instance-level shifts to eventually minimize the domain discrepancy. However, they still overlook to match crucial image regions and important instances across domains, which will strongly affect domain shift mitigation. In this work, we propose a simple but effective categorical regularization framework for alleviating this issue. It can be applied as a plug-and-play component on a series of Domain Adaptive Faster R-CNN methods which are prominent for dealing with domain adaptive detection. Specifically, by integrating an image-level multi-label classifier upon the detection backbone, we can obtain the sparse but crucial image regions corresponding to categorical information, thanks to the weakly localization ability of the classification manner. Meanwhile, at the instance level, we leverage the categorical consistency between image-level predictions (by the classifier) and instance-level predictions (by the detection head) as a regularization factor to automatically hunt for the hard aligned instances of target domains. Extensive experiments of various domain shift scenarios show that our method obtains a significant performance gain over original Domain Adaptive Faster R-CNN detectors. Furthermore, qualitative visualization and analyses can demonstrate the ability of our method for attending on the key regions/instances targeting on domain adaptation. Our code is open-source and available at \url{https://github.com/Megvii-Nanjing/CR-DA-DET}.
研究动机与目标
- 通过聚焦于关键图像区域和重要实例而非不可迁移的背景,解决目标检测中的域偏移问题。
- 通过利用图像级分类中的弱定位对象概念,提升源域与目标域之间的特征对齐。
- 通过图像级与实例级预测之间的一致性,自动识别目标域中的难对齐实例。
- 在不改变网络架构的前提下,提升域自适应Faster R-CNN方法的性能,实现即插即用的集成。
- 通过在多样化域偏移场景下的大量实验与可视化,验证类别正则化方法的有效性。
提出的方法
- 在检测主干网络上附加一个图像级多标签分类器,以学习对象级概念,并通过弱监督定位隐式定位关键区域。
- 采用图像级类别正则化(ICR)对齐跨域的整体对象表征,减少非可迁移背景的干扰。
- 通过强制图像级分类器输出与实例级检测头预测之间的一致性,应用类别一致性正则化(CCR),以识别难对齐的提议区域。
- 使用RoIAlign提取实例级特征,使用全局平均池化获取图像级特征,实现双层次对齐的联合优化。
- 端到端训练该框架,采用交叉熵损失进行分类,一致性损失用于预测对齐,无缝集成至DA Faster R-CNN流程中。
- 利用t-SNE和地球移动距离(EMD)对特征空间对齐进行定性和定量分析。
实验结果
研究问题
- RQ1图像级多标签分类能否提升域自适应检测中关键对象区域的定位能力?
- RQ2强制图像级与实例级预测之间的一致性,能否增强跨域中难匹配实例的对齐效果?
- RQ3即插即用的正则化框架是否能在多样化域偏移场景下显著提升现有DA Faster R-CNN方法的性能?
- RQ4在相似与不相似的域适应任务中,该方法在mAP和特征空间对齐方面与最先进方法相比表现如何?
- RQ5该正则化框架通过聚焦于与对象相关的特征而非背景噪声,在多大程度上减少了域差异?
主要发现
- 所提方法在PASCAL VOC到Clipart1k的不相似域适应任务中,相比基线DA-Faster R-CNN提升2.0% mAP,相比SW-Faster提升1.5%。
- 在Foggy Cityscapes和BDD100k数据集上,该方法显著优于原始的SW-Faster基线,证明其在天气与场景适应场景下的鲁棒性。
- 使用t-SNE进行的特征可视化表明,该方法能更好地对齐来自不同域的同一类别中最为匹配困难的实例,即使是最差匹配对也表现出良好对齐。
- 地球移动距离(EMD)度量从SW-Faster的8.84降低至SW-Faster-ICR-CCR的8.15,证实了特征空间中域差异的减少。
- 定性结果表明,该模型在源域与目标域中均能更准确地激活关注的主要对象,对关键区域的关注度显著提升。
- 该方法在无需架构修改的情况下,在公开基准上达到最先进性能,验证了其作为即插即用组件的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。