[논문 리뷰] Weakly- and Semi-Supervised Object Detection with Expectation-Maximization Algorithm
이 논문은 깊이 있는 CNN를 사용하여 약한 감독 및 준감독 객체 검출을 위한 기대최대화(EM) 프레임워크를 제안한다. 개체 수준 레이블을 누락된 데이터로 간주하여 반복적으로 객체 위치 추정과 검출 성능을 향상시킨다. 이는 PASCAL VOC 2007에서 VGG를 사용할 때 약한 감독 검출에서 최신 기술 수준(46.1% mAP)을 달성하며, 개체 수준 레이블의 40%만으로도 완전히 감독된 Fast R-CNN 성능에 거의 도달한다.
Object detection when provided image-level labels instead of instance-level labels (i.e., bounding boxes) during training is an important problem in computer vision, since large scale image datasets with instance-level labels are extremely costly to obtain. In this paper, we address this challenging problem by developing an Expectation-Maximization (EM) based object detection method using deep convolutional neural networks (CNNs). Our method is applicable to both the weakly-supervised and semi-supervised settings. Extensive experiments on PASCAL VOC 2007 benchmark show that (1) in the weakly supervised setting, our method provides significant detection performance improvement over current state-of-the-art methods, (2) having access to a small number of strongly (instance-level) annotated images, our method can almost match the performace of the fully supervised Fast RCNN. We share our source code at https://github.com/ZiangYan/EM-WSD.
연구 동기 및 목표
- 이미지 수준 레이블만으로 정확한 객체 검출기를 훈련하는 문제를 해결한다. 이는 경량의 바운딩 박스 레이블보다 비용이 저렴하다.
- 기존의 약한 감독 검출 방법이 제안된 영역을 독립적으로 다루고 딱딱한 결정을 내려 최적화되지 않은 국소화 성능을 유도하는 한계를 극복한다.
- 보조적으로 강하게 레이블링된 카테고리가 필요하지 않도록 하여 실생활 응용에 더 실용적인 준감독 검출을 가능하게 한다.
- EM을 통해 객체 국소화의 불확실성을 모델링함으로써 훈련의 안정성과 성능을 향상시킨다.
- 동일한 최적화 절차를 사용하여 약한 감독 및 준감독 설정 모두에 적용 가능한 통합 프레임워크를 개발한다.
제안 방법
- 개체 수준 레이블을 누락된 데이터로 간주하고, EM 알고리즘을 적용하여 객체 제안에 대한 확률 분포를 반복적으로 추정한다.
- E단계에서 현재 CNN 가중치와 이미지 수준 레이블을 사용하여 모든 가능한 객체 위치에 대한 부드러운 확률 분포를 계산한다.
- M단계에서 E단계에서 추정한 확률을 사용하여 CNN 파라미터를 업데이트하고, 관측된 이미지 수준 레이블의 기대 가능도를 최적화한다.
- 비볼록 최적화 과정에서의 수렴성 향상과 나쁜 국소 최적값을 피하기 위해 WSDDN을 초기화로 사용한다.
- 효율성과 국소화 정확도 향상을 위해 이미지당 k개의 최상위 제안을 사용하는 EM의 변종인 K-EM을 적용한다.
- 이미지 수준 및 개체 수준 레이블을 통합된 훈련 목표에 통합하여 준감독 설정으로의 원활한 적응을 가능하게 한다.
실험 결과
연구 질문
- RQ1객체 국소화의 불확실성을 모델링하고 딱딱한 결정 대신 소프트 결정을 사용함으로써, EM 기반 프레임워크가 약한 감독 객체 검출 성능을 향상시킬 수 있는가?
- RQ2이미지 수준 레이블만으로 훈련된 경우, EM 기반 검출 성능이 최신 기술 수준의 방법과 비교해 어떻게 되는가?
- RQ3준감독 설정에서 소량의 개체 수준 레이블이 약한 감독 및 완전히 감독된 검출기 간의 성능 격차를 어느 정도 줄일 수 있는가?
- RQ4제안된 방법이 AlexNet과 VGG와 같은 다양한 백본 네트워크에 대해 일반화 가능한가?
- RQ5보조적으로 레이블링된 카테고리가 필요 없이, 동일한 EM 프레임워크를 약한 감독 및 준감독 설정에 모두 적용할 수 있는가?
주요 결과
- 제안된 방법은 약한 감독 설정에서 AlexNet을 사용할 경우 39.4% mAP, VGG를 사용할 경우 46.1% mAP를 달성하여 현재 최신 기술 수준의 방법을 초월한다.
- 개체 수준 레이블 40%와 이미지 수준 레이블 60%만으로도 55.7% mAP를 달성하여, 완전히 감독된 Fast R-CNN의 57.1% mAP에 비해 단지 1.4% 낮을 뿐이다.
- EM 반복 과정에서 응답 맵의 정교함을 통해 국소화 정확도가 점진적으로 향상되는 것으로 나타났다.
- 기존의 MI-SVM 기반 접근 방식에서의 딱딱한 결정의 한계를 피하기 위해 소프트 확률 할당을 통해 객체 국소화의 불확실성을 성공적으로 다루었다.
- 다양한 네트워크 아키텍처에 대해 잘 일반화되며, 약한 감독 및 준감독 설정 모두에서 기준 방법 대비 일관된 성능 향상을 달성했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.