Skip to main content
QUICK REVIEW

[论文解读] Harmonizing Transferability and Discriminability for Adapting Object Detectors

Chaoqi Chen, Zebiao Zheng|arXiv (Cornell University)|Mar 13, 2020
Adversarial Robustness in Machine Learning参考文献 77被引用 23
一句话总结

本文提出层级可迁移性校准网络(HTCN),一种新颖的框架,通过在局部区域、实例和图像三个层级上分层校准特征表示,实现无监督域自适应目标检测中可迁移性与判别性的协调统一。HTCN通过输入插值的重要性加权对抗训练、基于张量融合的上下文感知实例级对齐,以及无监督的局部特征掩码,提升性能,在Cityscapes→Foggy-Cityscapes上达到SOTA的39.8% mAP,在Sim10K→Cityscapes上达到42.5% mAP。

ABSTRACT

Recent advances in adaptive object detection have achieved compelling results in virtue of adversarial feature adaptation to mitigate the distributional shifts along the detection pipeline. Whilst adversarial adaptation significantly enhances the transferability of feature representations, the feature discriminability of object detectors remains less investigated. Moreover, transferability and discriminability may come at a contradiction in adversarial adaptation given the complex combinations of objects and the differentiated scene layouts between domains. In this paper, we propose a Hierarchical Transferability Calibration Network (HTCN) that hierarchically (local-region/image/instance) calibrates the transferability of feature representations for harmonizing transferability and discriminability. The proposed model consists of three components: (1) Importance Weighted Adversarial Training with input Interpolation (IWAT-I), which strengthens the global discriminability by re-weighting the interpolated image-level features; (2) Context-aware Instance-Level Alignment (CILA) module, which enhances the local discriminability by capturing the underlying complementary effect between the instance-level feature and the global context information for the instance-level feature alignment; (3) local feature masks that calibrate the local transferability to provide semantic guidance for the following discriminative pattern alignment. Experimental results show that HTCN significantly outperforms the state-of-the-art methods on benchmark datasets.

研究动机与目标

  • 解决对抗性域自适应目标检测中可迁移性与判别性之间的权衡问题。
  • 克服在所有特征区域进行无差别域对齐所导致的负迁移风险。
  • 提升在复杂物体布局与场景变化的目标域上的检测性能。
  • 构建一个统一框架,在局部区域、实例和图像三个层级上校准可迁移性。
  • 通过增强特征判别性而不牺牲可迁移性,实现域偏移下更鲁棒、更准确的目标检测。

提出的方法

  • 提出重要性加权对抗训练结合输入插值(IWAT-I),通过重新加权插值后的图像级特征,增强全局判别性。
  • 提出上下文感知实例级对齐(CILA)模块,通过张量积将实例级特征与全局上下文融合,提升局部判别性。
  • 从浅层特征中设计局部特征掩码,以无监督方式识别并加权语义描述性强、可迁移的区域。
  • 采用分层校准策略,在三个层级(局部区域、实例、图像)上应用可迁移性校准。
  • 利用对抗训练对齐跨域特征,同时通过动态重加权和类似注意力的引导,保留判别能力。
  • 将所有组件整合进统一的检测框架(如Faster R-CNN)中,实现端到端训练,获得域不变且具备判别性的特征。

实验结果

研究问题

  • RQ1如何在对抗性域自适应目标检测中协调统一可迁移性与判别性?
  • RQ2在域偏移下,实例级上下文在提升局部特征判别性方面发挥何种作用?
  • RQ3无监督的局部特征掩码能否有效识别可迁移区域并提升对齐质量?
  • RQ4对抗训练过程中输入插值如何影响全局特征判别性?
  • RQ5在局部、实例和图像三个层级上进行分层校准,在跨域基准上对检测mAP的提升程度如何?

主要发现

  • 在Cityscapes→Foggy-Cityscapes上,HTCN达到39.8%的mAP,显著优于之前SOTA方法(SWDA)的36.6% mAP。
  • 在Sim10K→Cityscapes上,HTCN达到42.5% mAP,较之前SOTA(MAF)提升1.4个百分点。
  • 消融实验表明,移除HTCN的任意组件均导致性能一致下降,证实所有模块的必要性。
  • 局部特征掩码呈现出边缘感知模式,聚焦于显著的物体边界及交通标志、建筑等描述性场景元素。
  • HTCN在IOU阈值(0.5–0.9)范围内均保持优异性能,表明其边界框回归更准确、更鲁棒,优于基线方法。
  • 采用张量积融合的CILA模块优于基于拼接的特征融合,证明结构化特征交互的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。