QUICK REVIEW

[논문 리뷰] Adversarial Complementary Learning for Weakly Supervised Object Localization

Xiaolin Zhang, Yunchao Wei|arXiv (Cornell University)|2018. 04. 19.

Adversarial Robustness in Machine Learning참고 문헌 37인용 수 77

한 줄 요약

ACoL는 약한 감독하에서 두 개의 적대적 분류기를 도입하여 전역 객체 영역을 공동으로 찾아내며 ILSVRC 2016에서 최첨단 WSOL 성능을 달성한다.

ABSTRACT

In this work, we propose Adversarial Complementary Learning (ACoL) to automatically localize integral objects of semantic interest with weak supervision. We first mathematically prove that class localization maps can be obtained by directly selecting the class-specific feature maps of the last convolutional layer, which paves a simple way to identify object regions. We then present a simple network architecture including two parallel-classifiers for object localization. Specifically, we leverage one classification branch to dynamically localize some discriminative object regions during the forward pass. Although it is usually responsive to sparse parts of the target objects, this classifier can drive the counterpart classifier to discover new and complementary object regions by erasing its discovered regions from the feature maps. With such an adversarial learning, the two parallel-classifiers are forced to leverage complementary object regions for classification and can finally generate integral object localization together. The merits of ACoL are mainly two-fold: 1) it can be trained in an end-to-end manner; 2) dynamically erasing enables the counterpart classifier to discover complementary object regions more effectively. We demonstrate the superiority of our ACoL approach in a variety of experiments. In particular, the Top-1 localization error rate on the ILSVRC dataset is 45.14%, which is the new state-of-the-art.

연구 동기 및 목표

CAM 기반 WSOL의 한계를 이미지 수준의 감독 하에서 전체 객체 로컬라이제이션 가능하도록 동기 부여하고 해결한다.
정방향 패스에서 마지막 계층 피처 맵으로부터 로컬라이제이션 맵을 얻는 이론적으로 근거 있는 방법을 제안한다.
두 개의 적대적 분류기로 전체적으로 발견되는 보완적인 객체 영역을 찾는 엔드-투-엔드 아키텍처를 개발한다.
다이나믹 지우기를 통해 두 번째 분류기가 새로운 영역을 찾고 맵을 융합하여 로컬라이제이션을 향상시킨다.

제안 방법

전방 통과 중 마지막 합성곱 피처 맵에서 클래스 특이 맵을 얻을 수 있다는 이론적 정당성을 제공한다.
백본 피처 맵에 의해 구동되는 두 평행 분류기(A와 B)를 도입하고, Classifier B는 Classifier A가 식별한 영역을 지워 보완 영역을 발견한다.
지워진 discriminative 영역을 백본 피처에서 지우기 위해 Classifier A의 로컬라이제이션 맵에 임계값을 적용한다.
정규화된 두 분류기의 로컬라이제이션 맵을 원소별 최댓값으로 융합해 최종 전체 로컬라이제이션 맵을 형성한다.
교차 엔트로피 손실로 두 분류기를 함께 최적화하도록 네트워크를 엔드-투-엔드로 학습한다.

실험 결과

연구 질문

RQ1후처리 CAM 단계 없이 약한 감독 하에서 어떻게 합리적으로 객체를 로컬라이즈할 수 있는가?
RQ2동적 지우기를 사용하는 두 개의 적대적 분류기가 보완적인 객체 영역을 발견하여 전체 객체를 커버할 수 있는가?
RQ3지우기를 통한 엔드-투-엔드 학습이 단일 분류기 접근법보다 WSOL 로컬라이제이션 정확도를 개선하는가?

주요 결과

방법	Top-1 오차	Top-5 오차
GoogLeNet-GAP [48]	35.0	13.2
GoogLeNet	30.6	10.5
GoogLeNet-ACoL(Ours)	29.0	11.8
VGGnet-GAP [48]	33.4	12.2
VGGnet	31.2	11.4
VGGnet-ACoL(Ours)	32.5	12.0

ACoL은 ILSVRC 2016에서 최첨단 Top-1 로컬라이제이션 오차 45.14%를 달성(일부 설정에서 앙상블 결과로 Top-5 로컬라이제이션이 30.03%에 도달).
ACoL이 생성한 로컬라이제이션 맵은 CAM 기반 접근보다 더 큰 객체 영역을 커버하여 경계 상자를 더 정확하게 만든다.
두 분류기가 보완적인 객체 영역(예: 머리 vs 다리)을 발견하고 이들의 융합이 전체 객체 로컬라이제이션을 이끌어낸다.
Classifier A에 의해 지워진 판별적 영역이 Classifier B가 새로운 영역을 발견하게 하고 맵의 융합이 로컬라이제이션의 견고성을 향상시킨다.
데이터셋 전반(ILSVRC, CUB-200-2011, Caltech-256)에서 ACoL은 로컬라이제이션 결과를 개선하고 바운딩 박스 주석에 의존하지 않는 경쟁력 있는 분류 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.