QUICK REVIEW

[논문 리뷰] Weakly- and Semi-Supervised Learning of a DCNN for Semantic Image Segmentation

George Papandreou, Liang-Chieh Chen|arXiv (Cornell University)|2015. 02. 09.

Advanced Neural Network Applications참고 문헌 31인용 수 361

한 줄 요약

이 논문은 약한 지도 학습(이미지 수준 레이블 또는 경계 상자)과 준지도 학습(소수의 픽셀 수준 레이블 + 많은 수의 약한 레이블이 있는 이미지) 데이터를 사용하여 DeepLab-CRF 모델을 훈련하기 위한 기대 최대화(EM) 프레임워크를 제안한다. 이미지 수준 레이블만을 사용하여 PASCAL VOC 2012에서 69.0%의 평균 IOU를 달성했으며, PASCAL과 MS-COCO 데이터셋을 결합함으로써 73.9%의 IOU를 기록하여 전면 지도 학습 성능에 도달하면서도 레이블링 비용을 크게 절감한다.

ABSTRACT

Deep convolutional neural networks (DCNNs) trained on a large number of images with strong pixel-level annotations have recently significantly pushed the state-of-art in semantic image segmentation. We study the more challenging problem of learning DCNNs for semantic image segmentation from either (1) weakly annotated training data such as bounding boxes or image-level labels or (2) a combination of few strongly labeled and many weakly labeled images, sourced from one or multiple datasets. We develop Expectation-Maximization (EM) methods for semantic image segmentation model training under these weakly supervised and semi-supervised settings. Extensive experimental evaluation shows that the proposed techniques can learn models delivering competitive results on the challenging PASCAL VOC 2012 image segmentation benchmark, while requiring significantly less annotation effort. We share source code implementing the proposed system at https://bitbucket.org/deeplab/deeplab-public.

연구 동기 및 목표

픽셀 수준 세분화의 높은 레이블링 비용을 줄이기 위해 약한 지도 학습 및 준지도 학습을 활용하고자 한다.
이미지 수준 레이블 또는 경계 상자를 약한 지도로 사용하여 DeepLab-CRF 모델을 훈련하는 EM 기반 방법을 개발하고자 한다.
소수의 픽셀 수준 레이블이 있는 설정에서 성능을 평가하고자 하며, 이는 소수의 픽셀 수준 레이블 이미지와 많은 수의 약한 레이블이 있는 이미지를 함께 사용하는 준지도 학습 환경을 포함한다.
PASCAL 및 MS-COCO와 같은 여러 데이터셋의 레이블을 결합하여 성능을 향상시키고자 한다.
약한 지도 학습이 훨씬 적은 레이블링 노력으로도 경쟁 가능한 성능을 달성할 수 있음을 입증하고자 한다.

제안 방법

이 방법은 기대 최대화(EM) 알고리즘을 사용하며, 약한 지도 학습 제약 조건 하에 잠재적인 픽셀 수준 레이블을 추정하고, 확률적 경사 하강법(SGD)을 통해 DeepLab-CRF 모델 파라미터를 최적화한다.
E단계에서는 모델이 약한 레이블(예: 이미지 수준의 클래스 존재 여부 또는 경계 상자 영역) 조건 하에 픽셀 단위 예측을 추론하며, 약한 지도 학습과 일관성을 유지한다.
M단계에서는 추정된 픽셀 수준 레이블을 기반으로 DCNN 및 CRF 파라미터를 표준 backpropagation을 통해 업데이트한다.
경계 상자 지도 학습의 경우, 외부 객체성 또는 세분화 모듈에 의존하지 않고 경계 상자에서 유도된 전경/배경 세분화를 약한 지도로 사용한다.
소수의 픽셀 수준 레이블이 있는 이미지와 큰 규모의 약한 레이블이 있는 이미지(경계 상자 또는 이미지 수준 레이블)를 결합하여 준지도 학습으로 확장한다.
PASCAL 및 MS-COCO에서의 강한 레이블을 활용한 다중 데이터셋 사전 학습 및 공동 학습을 통해 방법을 추가로 향상시킨다.

실험 결과

연구 질문

RQ1픽셀 수준 레이블이 전혀 없이 이미지 수준 레이블만으로 훈련된 DCNN 기반 세분화 모델이 경쟁 가능한 성능을 달성할 수 있는가?
RQ2제안된 EM 기반 방법이 경계 상자 레이블만을 사용하여 세분화 모델을 훈련하는 데 얼마나 효과적인가?
RQ3소수의 픽셀 수준 레이블이 있는 이미지와 많은 수의 약한 레이블이 있는 이미지를 조합했을 때, 전면 지도 학습 모델의 성능에 얼마나 가까이 도달할 수 있는가?
RQ4PASCAL 및 MS-COCO와 같은 여러 데이터셋의 약한 또는 강한 레이블을 결합하면 세분화 정확도를 추가로 향상시킬 수 있는가?
RQ5제안된 EM 프레임워크가 기존의 MIL 기반 방법보다 약한 지도 학습 기반 세분화에서 더 우수한 성능을 보일 수 있는가?

주요 결과

경계 상자 레이블만을 사용하여 PASCAL VOC 2012에서 62.2%의 평균 IOU를 달성하여 극히 적은 지도 학습으로도 뛰어난 성능을 입증했다.
이미지 수준 레이블만을 사용한 경우, 39.6%의 IOU를 기록하여 외부 객체성 또는 세분화 모듈 없이도 최신 기술 수준에 근접한 성능를 달성했다.
준지도 학습 설정에서 2.9k개의 픽셀 수준 레이블과 9k개의 이미지 수준 레이블이 있는 이미지를 사용했을 때, 68.5%의 IOU를 기록하여 전면 지도 학습 기준선보다 2% 이하로 떨어졌다.
PASCAL 및 MS-COCO 데이터셋의 강한 레이블을 결합함으로써 PASCAL VOC 2012에서 73.9%의 IOU를 달성하여 이전의 방법들을 초월했다.
EM 기반 접근 방식은 기존의 MIL 기반 방법을 능가하며, 훨씬 적은 레이블링 비용으로 거의 최신 기술 수준의 성능를 달성했다.
이 방법은 다양한 데이터셋과 설정에서 잘 일반화되며, 약한 지도 및 준지도 학습 환경에서 강건성과 확장성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.