QUICK REVIEW

[논문 리뷰] Weakly- and Semi-Supervised Object Detection with Expectation-Maximization Algorithm

Ziang Yan, Jian Liang|arXiv (Cornell University)|2017. 02. 28.

Advanced Neural Network Applications참고 문헌 31인용 수 36

한 줄 요약

이 논문은 깊이 있는 CNN를 사용하여 약한 감독 및 준감독 객체 검출을 위한 기대최대화(EM) 프레임워크를 제안한다. 개체 수준 레이블을 누락된 데이터로 간주하여 반복적으로 객체 위치 추정과 검출 성능을 향상시킨다. 이는 PASCAL VOC 2007에서 VGG를 사용할 때 약한 감독 검출에서 최신 기술 수준(46.1% mAP)을 달성하며, 개체 수준 레이블의 40%만으로도 완전히 감독된 Fast R-CNN 성능에 거의 도달한다.

ABSTRACT

Object detection when provided image-level labels instead of instance-level labels (i.e., bounding boxes) during training is an important problem in computer vision, since large scale image datasets with instance-level labels are extremely costly to obtain. In this paper, we address this challenging problem by developing an Expectation-Maximization (EM) based object detection method using deep convolutional neural networks (CNNs). Our method is applicable to both the weakly-supervised and semi-supervised settings. Extensive experiments on PASCAL VOC 2007 benchmark show that (1) in the weakly supervised setting, our method provides significant detection performance improvement over current state-of-the-art methods, (2) having access to a small number of strongly (instance-level) annotated images, our method can almost match the performace of the fully supervised Fast RCNN. We share our source code at https://github.com/ZiangYan/EM-WSD.

연구 동기 및 목표

이미지 수준 레이블만으로 정확한 객체 검출기를 훈련하는 문제를 해결한다. 이는 경량의 바운딩 박스 레이블보다 비용이 저렴하다.
기존의 약한 감독 검출 방법이 제안된 영역을 독립적으로 다루고 딱딱한 결정을 내려 최적화되지 않은 국소화 성능을 유도하는 한계를 극복한다.
보조적으로 강하게 레이블링된 카테고리가 필요하지 않도록 하여 실생활 응용에 더 실용적인 준감독 검출을 가능하게 한다.
EM을 통해 객체 국소화의 불확실성을 모델링함으로써 훈련의 안정성과 성능을 향상시킨다.
동일한 최적화 절차를 사용하여 약한 감독 및 준감독 설정 모두에 적용 가능한 통합 프레임워크를 개발한다.

제안 방법

개체 수준 레이블을 누락된 데이터로 간주하고, EM 알고리즘을 적용하여 객체 제안에 대한 확률 분포를 반복적으로 추정한다.
E단계에서 현재 CNN 가중치와 이미지 수준 레이블을 사용하여 모든 가능한 객체 위치에 대한 부드러운 확률 분포를 계산한다.
M단계에서 E단계에서 추정한 확률을 사용하여 CNN 파라미터를 업데이트하고, 관측된 이미지 수준 레이블의 기대 가능도를 최적화한다.
비볼록 최적화 과정에서의 수렴성 향상과 나쁜 국소 최적값을 피하기 위해 WSDDN을 초기화로 사용한다.
효율성과 국소화 정확도 향상을 위해 이미지당 k개의 최상위 제안을 사용하는 EM의 변종인 K-EM을 적용한다.
이미지 수준 및 개체 수준 레이블을 통합된 훈련 목표에 통합하여 준감독 설정으로의 원활한 적응을 가능하게 한다.

실험 결과

연구 질문

RQ1객체 국소화의 불확실성을 모델링하고 딱딱한 결정 대신 소프트 결정을 사용함으로써, EM 기반 프레임워크가 약한 감독 객체 검출 성능을 향상시킬 수 있는가?
RQ2이미지 수준 레이블만으로 훈련된 경우, EM 기반 검출 성능이 최신 기술 수준의 방법과 비교해 어떻게 되는가?
RQ3준감독 설정에서 소량의 개체 수준 레이블이 약한 감독 및 완전히 감독된 검출기 간의 성능 격차를 어느 정도 줄일 수 있는가?
RQ4제안된 방법이 AlexNet과 VGG와 같은 다양한 백본 네트워크에 대해 일반화 가능한가?
RQ5보조적으로 레이블링된 카테고리가 필요 없이, 동일한 EM 프레임워크를 약한 감독 및 준감독 설정에 모두 적용할 수 있는가?

주요 결과

제안된 방법은 약한 감독 설정에서 AlexNet을 사용할 경우 39.4% mAP, VGG를 사용할 경우 46.1% mAP를 달성하여 현재 최신 기술 수준의 방법을 초월한다.
개체 수준 레이블 40%와 이미지 수준 레이블 60%만으로도 55.7% mAP를 달성하여, 완전히 감독된 Fast R-CNN의 57.1% mAP에 비해 단지 1.4% 낮을 뿐이다.
EM 반복 과정에서 응답 맵의 정교함을 통해 국소화 정확도가 점진적으로 향상되는 것으로 나타났다.
기존의 MI-SVM 기반 접근 방식에서의 딱딱한 결정의 한계를 피하기 위해 소프트 확률 할당을 통해 객체 국소화의 불확실성을 성공적으로 다루었다.
다양한 네트워크 아키텍처에 대해 잘 일반화되며, 약한 감독 및 준감독 설정 모두에서 기준 방법 대비 일관된 성능 향상을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.