Skip to main content
QUICK REVIEW

[논문 리뷰] C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection

Fang Wan, Chang Liu|arXiv (Cornell University)|2019. 04. 11.
Advanced Image and Video Retrieval Techniques참고 문헌 40인용 수 30
한 줄 요약

C-MIL은 약한 감독 객체 검출(WSOD)에서 비볼록 손실 함수의 문제를 완화하기 위해 다중 예제 학습(MIL) 내에서 계속 최적화 방법을 제안한다. 공간적 및 클래스 관련 인스턴스 부분집합에 대해 부드러운 손실 함수를 사용하여 전체 객체 범위를 나타내는 안정적 의미 극단 영역(SSERs)의 발견을 촉진한다. VGG16을 사용하여 PASCAL VOC 2007에서 63.5%의 mAP, VOC 2012에서 46.7%의 mAP를 달성하여 이전 방법보다 최대 6.7%의 성능 향상을 보였다.

ABSTRACT

Weakly supervised object detection (WSOD) is a challenging task when provided with image category supervision but required to simultaneously learn object locations and object detectors. Many WSOD approaches adopt multiple instance learning (MIL) and have non-convex loss functions which are prone to get stuck into local minima (falsely localize object parts) while missing full object extent during training. In this paper, we introduce a continuation optimization method into MIL and thereby creating continuation multiple instance learning (C-MIL), with the intention of alleviating the non-convexity problem in a systematic way. We partition instances into spatially related and class related subsets, and approximate the original loss function with a series of smoothed loss functions defined within the subsets. Optimizing smoothed loss functions prevents the training procedure falling prematurely into local minima and facilitates the discovery of Stable Semantic Extremal Regions (SSERs) which indicate full object extent. On the PASCAL VOC 2007 and 2012 datasets, C-MIL improves the state-of-the-art of weakly supervised object detection and weakly supervised object localization with large margins.

연구 동기 및 목표

  • MIL 기반의 약한 감독 객체 검출(WSOD)에서 비볼록 손실 함수의 국소 최솟값 문제를 해결함으로써, 객체의 일부가 아닌 전체 객체 범위가 잘못 국소화되는 문제를 해결한다.
  • 공간 정규화나 점진적 개선에 의존하는 기존 방법의 한계를 극복함으로써, 근본적인 비볼록성 문제를 체계적으로 해결하지 못하는 점을 보완한다.
  • 계속 방법을 통해 볼록 손실 함수에서 비볼록 손실 함수로 점진적으로 전이되는 원칙적인 최적화 전략을 개발함으로써, 전체 객체 범위로의 안정적 수렴을 가능하게 한다.
  • 종단 간 학습을 가능하게 하여 특징적인 인스턴스 부분집합을 발견하고 비특징적인 부분집합을 억제함으로써, 검출 및 국소화 성능을 향상시킨다.

제안 방법

  • 계속 최적화를 MIL에 도입하기 위해, 계속 매개변수로 제어되는 부분집합에 대해 부드러운 손실 함수의 시리즈를 정의한다.
  • 공간적으로 겹치고 클래스가 유사한 부분집합으로 인스턴스를 분할한다. 가장 작은 매개변수 값은 하나의 부분집합(모든 인스턴스)을 형성하고, 가장 큰 값은 개별 인스턴스를 형성한다.
  • 계속 매개변수를 전체에서 최소 부분집합으로 점차 감소시켜 원래의 비볼록 손실을 더 쉽게 최적화할 수 있는 볼록 근사 시퀀스로 변환한다.
  • 딥 네URAL 네트워크 프레임워크 내에서 부드러운 손실 함수를 종단 간 최적화함으로써, 모델이 먼저 객체 부분을 학습하고 이후에 안정적 의미 극단 영역(SSERs)을 통해 전체 객체 범위로 정밀화할 수 있도록 한다.
  • 각 부분집합을 사용하여 학습 손실을 계산하며, 각 부분집합은 겹치는 영역과 유사한 점수를 가진 영역을 집계하여 일관된 객체 국소화를 촉진한다.
  • 딥 특징을 활용하여 인스턴스 선택 및 부분집합 형성에 안내함으로써, 최종 검출기가 완전한 객체에 해당하는 영역을 활성화하도록 보장한다.

실험 결과

연구 질문

  • RQ1계속 최적화가 MIL 기반의 약한 감독 객체 검출에서 비볼록성 문제를 효과적으로 완화하여 국소 최솟값으로의 조기 수렴을 방지할 수 있는가?
  • RQ2공간적 및 클래스 관련 부분집합으로 인스턴스를 분할하는 것이 표준 MIL보다 전체 객체 범위의 발견을 향상시키는가?
  • RQ3볼록에서 비볼록으로 점차 전이되는 부드러운 손실 함수의 시리즈가 WSOD에서 더 나은 일반화 및 국소화 성능을 이끌 수 있는가?
  • RQ4제안된 C-MIL 방법이 PASCAL VOC 2007 및 2012와 같은 표준 벤치마크에서 최신 기술 수준(SOTA) 방법에 비해 mAP 및 국소화 정확도를 어느 정도 향상시키는가?

주요 결과

  • C-MIL은 VGG16 기반으로 PASCAL VOC 2007 데이터셋에서 63.5%의 mAP를 달성하여 이전 SOTA 방법(MELM)보다 3.2% 높은 성능을 보였다.
  • VGG16을 사용한 PASCAL VOC 2012에서 C-MIL은 46.7%의 mAP를 기록하여 최고의 이전 방법(MELM)보다 4.3% 높고, WeakRPN보다는 5.9% 높았다.
  • 객체 국소화에서 C-MIL은 VOC 2007에서 65.0%의 CorLoc, VOC 2012에서는 67.4%의 CorLoc를 달성하여 TS 2 C보다 각각 4.0%, 2.5% 높은 성능을 보였다.
  • C-MIL이 생성한 가짜 바운딩 박스를 사용해 Fast-RCNN 검출기를 재학습한 결과, VOC 2007에서 mAP가 53.1%에 도달하여 이전 SOTA보다 2.7%에서 6.1%까지 높은 성능을 기록했다.
  • 어려운 카테고리에서 검출 성능 향상이著명했다: VOC 2007에서 'bird'는 +5.8%, 'train'은 +4.5%, 'cat'은 +3.5% 향상되었다.
  • 계속 최적화의 사용으로 모델은 거친 부분집합에서 더 정밀한 부분집합으로 점차 정밀화함으로써 전체 객체 범위에 해당하는 안정적 의미 극단 영역(SSERs)을 발견할 수 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.