QUICK REVIEW

[논문 리뷰] Harmonizing Transferability and Discriminability for Adapting Object Detectors

Chaoqi Chen, Zebiao Zheng|arXiv (Cornell University)|2020. 03. 13.

Adversarial Robustness in Machine Learning참고 문헌 77인용 수 23

한 줄 요약

이 논문은 객체 검출을 위한 비지도 도메인 적응에서 이질성과 구분 능력을 조화롭게 하기 위해 국소 영역, 인스턴스, 이미지 수준에서 특징 표현을 계층적으로 校정하는 새로운 프레임워크인 계층적 이질성 캘리브레이션 네트워크(Hierarchical Transferability Calibration Network, HTC)를 제안한다. HTCN은 입력 보간을 통한 중요도 가중치 부여의 적대적 훈련, 텐서 병합을 통한 맥락 인식 인스턴스 수준 정렬, 비지도 방식으로 생성된 국소 특징 마스크를 통해 성능을 향상시키며, Cityscapes→Foggy-Cityscapes에서 39.8%의 SOTA mAP와 Sim10K→Cityscapes에서 42.5%의 SOTA mAP를 달성한다.

ABSTRACT

Recent advances in adaptive object detection have achieved compelling results in virtue of adversarial feature adaptation to mitigate the distributional shifts along the detection pipeline. Whilst adversarial adaptation significantly enhances the transferability of feature representations, the feature discriminability of object detectors remains less investigated. Moreover, transferability and discriminability may come at a contradiction in adversarial adaptation given the complex combinations of objects and the differentiated scene layouts between domains. In this paper, we propose a Hierarchical Transferability Calibration Network (HTCN) that hierarchically (local-region/image/instance) calibrates the transferability of feature representations for harmonizing transferability and discriminability. The proposed model consists of three components: (1) Importance Weighted Adversarial Training with input Interpolation (IWAT-I), which strengthens the global discriminability by re-weighting the interpolated image-level features; (2) Context-aware Instance-Level Alignment (CILA) module, which enhances the local discriminability by capturing the underlying complementary effect between the instance-level feature and the global context information for the instance-level feature alignment; (3) local feature masks that calibrate the local transferability to provide semantic guidance for the following discriminative pattern alignment. Experimental results show that HTCN significantly outperforms the state-of-the-art methods on benchmark datasets.

연구 동기 및 목표

객체 검출을 위한 적대적 도메인 적응에서 이질성과 구분 능력 사이의 상충 관계를 해결한다.
모든 특징 영역에 걸쳐 무분별한 도메인 정렬이 유도하는 부정적 이질성 위험을 완화한다.
복잡한 객체 레이아웃과 환경 변화가 있는 타겟 도메인에서의 검출 성능을 향상시킨다.
국소 영역, 인스턴스, 이미지 수준에서 이질성을 다각도로 校정하는 통합 프레임워크를 개발한다.
이질성 손실 없이 특징의 구분 능력을 향상시켜 도메인 이동 상황에서도 더 견고하고 정확한 객체 검출을 가능하게 한다.

제안 방법

입력 보간을 통한 중요도 가중치 부여의 적대적 훈련(Impact Weighted Adversarial Training with input Interpolation, IWAT-I)을 도입하여, 보간된 이미지 수준 특징을 재가중하여 전반적 구분 능력을 강화한다.
텐서 곱을 통해 전역 맥락과 인스턴스 수준 특징을 융합함으로써 국소적 구분 능력을 향상시키는 맥락 인식 인스턴스 수준 정렬(Coherent Instance-Level Alignment, CILA) 모듈을 제안한다.
양면적인 방식으로 얕은 층의 특징에서 국소 특징 마스크를 설계하여 의미적으로 기술적인 전이 가능한 영역을 식별하고 강조한다.
국소 영역, 인스턴스, 이미지 수준에서 세 가지 수준에서 이질성 캘리브레이션을 적용하는 계층적 캘리브레이션 전략을 채택한다.
동적 재가중 및 주의 기반 가이드라인을 통해 특징의 적대적 정렬을 수행하면서도 구분 능력을 유지한다.
모든 구성 요소를 통합된 검출 프레임워크(Faster R-CNN 등)에 통합하여 도메인 불변성과 구분 능성을 동시에 확보한 엔드 투 엔드 훈련을 수행한다.

실험 결과

연구 질문

RQ1적대적 도메인 적응을 통한 객체 검출에서 이질성과 구분 능력을 어떻게 조화시킬 수 있는가?
RQ2도메인 이동 상황에서 인스턴스 수준의 맥락은 국소 특징의 구분 능력을 향상시키는 데 어떤 역할을 하는가?
RQ3비지도 방식으로 생성된 국소 특징 마스크는 전이 가능한 영역를 효과적으로 식별하고 정렬 품질을 향상시킬 수 있는가?
RQ4적대적 훈련 중 입력 보간이 전반적 특징의 구분 능력에 어떤 영향을 미치는가?
RQ5국소, 인스턴스, 이미지 수준에서의 계층적 캘리브레이션은 교차 도메인 벤치마크에서 검출 mAP 향상에 얼마나 기여하는가?

주요 결과

Cityscapes→Foggy-Cityscapes에서 HTCN은 39.8%의 mAP를 달성하여 이전 SOTA 방법(SWDA)의 36.6% mAP를 뛰어넘는다.
Sim10K→Cityscapes에서 HTCN은 42.5%의 mAP를 기록하며, 이전 SOTA(MAF)를 1.4% 포인트 뛰어넘는다.
제거 실험 결과, HTCN의 어떤 모듈도 제거할 경우 성능 저하가 일관되게 발생함을 확인하여 모든 모듈의 필요성을 입증한다.
국소 특징 마스크는 가장자리 인식 패턴을 보이며, 눈에 띄는 객체 경계선과 교통 표지판, 건물 등의 의미 있는 환경 요소에 집중한다.
IOU 임계치(0.5–0.9) 전반에서 HTCN은 뛰어난 성능 유지를 보이며, 기준선 대비 더 정확하고 견고한 바운딩 박스 회귀 능력을 확보한다.
텐서 곱 융합을 사용한 CILA 모듈은 연결 기반 융합보다 성능이 뛰어나, 구조적 특징 상호작용의 효과를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.