QUICK REVIEW

[논문 리뷰] Multi-Evidence Filtering and Fusion for Multi-Label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning

Weifeng Ge, Sibei Yang|arXiv (Cornell University)|2018. 02. 26.

Advanced Neural Network Applications인용 수 27

한 줄 요약

이 논문은 다중 약한 감독 소스로부터 유도된 다중 증거 객체 인스턴스와 픽셀 수준 예측을 융합하고 필터링하여 다중 레이블 분류, 객체 검출, 세분화 성능을 향상시키는 약한 감독 커리큘럼 학습 파이프라인을 제안한다. 메트릭 학습, 밀도 기반 클러스터링, 어텐션 맵 융합을 조합함으로써, MS-COCO, PASCAL VOC 2007, PASCAL VOC 2012에서 최신 기술 수준의 성능을 달성하였으며, VOC 2012에서 69.4%의 CorLoc, MS-COCO에서 72.8%의 F1-C를 기록하였다.

ABSTRACT

Supervised object detection and semantic segmentation require object or even pixel level annotations. When there exist image level labels only, it is challenging for weakly supervised algorithms to achieve accurate predictions. The accuracy achieved by top weakly supervised algorithms is still significantly lower than their fully supervised counterparts. In this paper, we propose a novel weakly supervised curriculum learning pipeline for multi-label object recognition, detection and semantic segmentation. In this pipeline, we first obtain intermediate object localization and pixel labeling results for the training images, and then use such results to train task-specific deep networks in a fully supervised manner. The entire process consists of four stages, including object localization in the training images, filtering and fusing object instances, pixel labeling for the training images, and task-specific network training. To obtain clean object instances in the training images, we propose a novel algorithm for filtering, fusing and classifying object instances collected from multiple solution mechanisms. In this algorithm, we incorporate both metric learning and density-based clustering to filter detected object instances. Experiments show that our weakly supervised pipeline achieves state-of-the-art results in multi-label image classification as well as weakly supervised object detection and very competitive results in weakly supervised semantic segmentation on MS-COCO, PASCAL VOC 2007 and PASCAL VOC 2012.

연구 동기 및 목표

객체 검출 및 세분화 분야에서 약한 감독 모델과 완전 감독 모델 간의 성능 격차를 해소한다.
부분적인 이미지 수준 감독으로 인한 정밀도 및 재현율 저하 문제를 해결한다.
다양한 약한 감독 알고리즘의 상호보완적 출력을 활용하여 정확도와 내성 강도를 향상시킨다.
이미지, 객체, 픽셀 수준의 다중 수준 감독을 통합하는 통합된 커리큘럼 학습 파이프라인을 개발하여 엔드 투 엔드 학습을 가능하게 한다.
이미지 수준 레이블만을 사용하여 다중 레이블 분류, 약한 감독 기반 객체 검출, 경쟁력 있는 세분화 성능을 달성한다.

제안 방법

하나의 하향식, 하나의 상향식 약한 감독 기반 객체 검출 알고리즘을 사용하여 객체 위치 정보를 수집한다.
메트릭 학습과 밀도 기반 클러스터링을 적용하여 검출된 객체 인스턴스를 필터링하고 융합함으로써 노이즈와 이방성 요소를 감소시킨다.
필터링된 인스턴스에 대해 단일 레이블 분류기를 훈련시어 최종 클래스 레이블을 객체 제안에 할당한다.
이미지 수준 어텐션 맵, 객체 수준 어텐션 맵, 검출 히트맵을 융합하여 깔끔한, 클래스별 픽셀 수준 확률 맵을 생성한다.
융합된 픽셀 맵에 대해 완전 컨volutional 네트워크를 훈련시어 각 훈련 이미지의 최종 픽셀 수준 레이블 맵을 생성한다.
생성된 객체 인스턴스와 픽셀 맵을 감독 신호로 활용하여 다중 작업 학습을 통해 검출, 세분화, 다중 레이블 분류를 위한 태스크별 네트워크를 훈련시킨다.

실험 결과

연구 질문

RQ1다양한 약한 감독 알고리즘에서 유도된 다중 증거 융합이 단일 방법 기반 접근보다 검출 및 세분화 성능을 향상시키는가?
RQ2메트릭 학습과 밀도 기반 클러스터링의 조합이 약한 감독에서 노이즈가 많은 객체 인스턴스를 효과적으로 필터링하는 데 얼마나 유용한가?
RQ3이미지 수준, 객체 수준, 픽셀 수준 어텐션 맵을 융합함으로써 픽셀 수준의 레이블링 정확도가 얼마나 향상되는가?
RQ4다양한 수준의 중간 감독 신호를 활용하는 커리큘럼 학습 파이프라인이 완전 감독 모델에 가까운 성능을 달성할 수 있는가?
RQ5각 구성 요소(예: 인스턴스 필터링, 픽셀 맵 융합)가 약한 감독 학습의 최종 성능에 기여하는 정도는 어떠한가?

주요 결과

제안된 파이프라인은 PASCAL VOC 2012 검증 세트에서 69.4%의 CorLoc 성능을 달성하여 이전 최고 기록보다 3.8% 향상되었다.
MS-COCO에서 본 방법은 72.8%의 F1-C를 기록하여 기준 모델인 ResNet-101 및 최신 기술 수준의 방법들을 초월하였다.
제거 실험 결과, 객체 인스턴스 처리 단계를 제거할 경우 mAP가 3.1% 감소하여 이 단계의 핵심적 역할을 확인하였다.
클러스터링 및 이방성 탐지 단계를 제거할 경우 mAP가 2.7% 감소하여 노이즈 제거의 중요성을 확인하였다.
신뢰도에 관계없이 모든 픽셀에 레이블을 할당할 경우 mAP가 47.5%로 떨어지며, 불확실성 인식 레이블링의 유용성을 입증하였다.
이중 브런치 다중 작업 네트워크(분류 + 세분화)는 MS-COCO에서 모든 최신 기술 수준 방법들 중에서 가장 높은 F1-C, F1-O, F1-C/top3 점수를 기록하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.