Skip to main content
QUICK REVIEW

[논문 리뷰] Efficient piecewise training of deep structured models for semantic segmentation

Guosheng Lin, Chunhua Shen|arXiv (Cornell University)|2015. 04. 04.
Advanced Neural Network Applications참고 문헌 42인용 수 83
한 줄 요약

이 논문은 복잡한 공간적 맥락을 모델링하기 위해 CNN과 조건부 랜덤 필드(CRFs)를 결합한 딥 구조적 모델을 제안한다. 복합적인 패치-패치 맥락을 위한 CNN 기반의 이차 상관관계를 도입하고, 조각별 학습을 통해 효율적인 엔드 투 엔드 학습을 가능하게 하여, 다중 척도 입력과 슬라이딩 피라미드 풀링을 활용해 배경 맥락을 고려한 PASCAL VOC 2012에서 새로운 최고 성능 78.0 mIoU를 달성한다.

ABSTRACT

Recent advances in semantic image segmentation have mostly been achieved by training deep convolutional neural networks (CNNs). We show how to improve semantic segmentation through the use of contextual information; specifically, we explore `patch-patch' context between image regions, and `patch-background' context. For learning from the patch-patch context, we formulate Conditional Random Fields (CRFs) with CNN-based pairwise potential functions to capture semantic correlations between neighboring patches. Efficient piecewise training of the proposed deep structured model is then applied to avoid repeated expensive CRF inference for back propagation. For capturing the patch-background context, we show that a network design with traditional multi-scale image input and sliding pyramid pooling is effective for improving performance. Our experimental results set new state-of-the-art performance on a number of popular semantic segmentation datasets, including NYUDv2, PASCAL VOC 2012, PASCAL-Context, and SIFT-flow. In particular, we achieve an intersection-over-union score of 78.0 on the challenging PASCAL VOC 2012 dataset.

연구 동기 및 목표

  • 이미지 영역 간의 맥락적 관계와 배경과의 관계를 명시적으로 모델링하여 세분화 성능을 향상시키기 위해.
  • 딥 특징을 사용하는 CRF 기반 모델에서 공동 학습의 계산 비효율성을 해결하기 위해.
  • 딥 신경망을 활용해 패치-패치 및 패치-배경 맥락을 구조적으로 모델링하여 성능을 향상시키기 위해.
  • PASCAL VOC 2012, NYUDv2, PASCAL-Context, SIFT-flow를 포함한 벤치마크 데이터셋에서 최고 성능을 달성하기 위해.

제안 방법

  • 이웃한 이미지 패치 간의 의미적 호환성을 모델링하기 위해 CRF 내에 CNN 기반의 이차 상관관계 함수를 정식화한다.
  • 역전파 중 반복적인 비용이 큰 추론을 피하기 위해 CRF의 조각별 학습을 적용하여 효율적인 엔드 투 엔드 학습을 가능하게 한다.
  • 다중 척도 이미지 입력과 슬라이딩 피라미드 풀링을 사용해 풍부한 패치-배경 맥락을 캡처한다.
  • 경계 세부 사항과 해상도를 향상시키기 위해 중간 특징 맵에 정밀화 모듈을 적용한다.
  • 최종 고해상도 예측을 생성하기 위해 경계 정밀화 후처리를 수행한다.
  • 다양한 네트워크 레이어에서 유도된 정밀화된 특징과 굵은 CRF 추론 예측을 결합하여 정확도를 향상시킨다.

실험 결과

연구 질문

  • RQ1CRF 내에 CNN 기반의 이차 상관관계가 이미지 패치 간의 의미적 호환성을 효과적으로 모델링하여 세분화 성능을 향상시킬 수 있는가?
  • RQ2CRF의 조각별 학습이 반복적인 추론 없이 깊이 있는 구조적 모델의 공동 학습을 효율적으로 가능하게 할 수 있는가?
  • RQ3다중 척도 및 피라미드 풀링된 특징을 통합함으로써 배경 맥락 모델링이 세분화에서 어떻게 향상되는가?
  • RQ4제안된 방법이 PASCAL VOC 2012와 같은 도전적인 벤치마크에서 성능을 얼마나 향상시키는가?

주요 결과

  • 이 방법은 PASCAL VOC 2012 데이터셋에서 새로운 최고 성능(mean intersection-over-union, mIoU) 78.0을 달성한다.
  • VOC 2012 학습 데이터만을 사용할 경우, 모델은 75.3 mIoU를 기록하여 동일한 설정에서 모든 이전 방법을 초월한다.
  • 추가로 COCO 데이터를 사용할 경우, mIoU는 77.2로 증가하여 대규모 사전 학습의 효과를 입증한다.
  • PASCAL-Context(60개 클래스)에서 43.3 mIoU를 기록하여 이 데이터셋에서 보고된 바 중 최고 성능이다.
  • SIFT-flow 데이터셋(33개 클래스)에서 44.9 mIoU를 기록하여 모든 이전 방법을 능가한다.
  • VOC 2012 데이터만으로 학습한 경우, 20개 클래스 중 18개에서 두 번째로 우수한 방법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.