Skip to main content
QUICK REVIEW

[논문 리뷰] Region Mutual Information Loss for Semantic Segmentation

Shuai Zhao, Yang Wang|arXiv (Cornell University)|2019. 10. 26.
Robotics and Automated Systems인용 수 83
한 줄 요약

RMI 손실은 영역 단위 픽셀 의존성을 모델링하여 의미 분할 성능을 향상시키며, VOC2012와 CamVid에서 추가 추론 오버헤드 없이 일관된 이점을 제공합니다.

ABSTRACT

Semantic segmentation is a fundamental problem in computer vision. It is considered as a pixel-wise classification problem in practice, and most segmentation models use a pixel-wise loss as their optimization riterion. However, the pixel-wise loss ignores the dependencies between pixels in an image. Several ways to exploit the relationship between pixels have been investigated, \eg, conditional random fields (CRF) and pixel affinity based methods. Nevertheless, these methods usually require additional model branches, large extra memories, or more inference time. In this paper, we develop a region mutual information (RMI) loss to model the dependencies among pixels more simply and efficiently. In contrast to the pixel-wise loss which treats the pixels as independent samples, RMI uses one pixel and its neighbour pixels to represent this pixel. Then for each pixel in an image, we get a multi-dimensional point that encodes the relationship between pixels, and the image is cast into a multi-dimensional distribution of these high-dimensional points. The prediction and ground truth thus can achieve high order consistency through maximizing the mutual information (MI) between their multi-dimensional distributions. Moreover, as the actual value of the MI is hard to calculate, we derive a lower bound of the MI and maximize the lower bound to maximize the real value of the MI. RMI only requires a few extra computational resources in the training stage, and there is no overhead during testing. Experimental results demonstrate that RMI can achieve substantial and consistent improvements in performance on PASCAL VOC 2012 and CamVid datasets. The code is available at https://github.com/ZJULearning/RMI.

연구 동기 및 목표

  • 픽셀 단위 손실을 넘어 픽셀 의존성을 도입하여 분할 성능을 향상시키려는 동기를 부여한다.
  • 예측과 실제 레이블 간의 고차 일관성을 강제하기 위해 영역 기반 상호정보 손실을 제안한다.
  • 추가 메모리 최소화 및 추가 추론 비용 없이 RMI 학습을 효율적으로 만든다.
  • 기저 모델을 변경하지 않고 기존 분할 프레임워크에 쉽게 통합 가능하도록 한다.

제안 방법

  • 각 픽셀을 이웃 픽셀의 영역(예: 3x3)으로 표현하여 고차원 점을 형성한다.
  • 이미지를 예측 및 실제 정답에 대한 이 고차원 점들의 분포로 환원한다.
  • 상호 정보 I(Y;P)의 계산이 가능한 하한을 도출하고 학습 중 이 하한을 최대화한다.
  • 후방분포 Y|P의 분산을 이계 독립 가정과 닫힌 형태의 공분산 표현으로 근사한다.
  • 실용 가능한 행렬 M과 Cholesky 분해를 사용하여 MI 하한 계산을 정규화하고 안정화한다.
  • 균형 매개변수를 갖는 결합 손실에서 RMI를 표준 교차 엔트로피와 결합한다.

실험 결과

연구 질문

  • RQ1영역 기반 상호 정보 목표가 픽셀 단위 손실보다 분할 정확도를 향상시킬 수 있는가?
  • RQ2딥 러닝 학습에 실용적인 상호 정보의 하한을 어떻게 계산할 수 있는가?
  • RQ3성능과 자원 사용 측면에서 RMI의 다운샘플링 및 영역 크기의 트레이드오프는 무엇인가?
  • RQ4RMI가 서로 다른 분할 백본과 데이터셋에서 일반화되는가?

주요 결과

  • RMI는 DeepLabv3 및 DeepLabv3+ 베이스라인에서 VOC2012 val/test 세트에 걸쳐 상당하고 일관된 mIoU 향상을 제공합니다.
  • 제시된 설정에서 CRF 후처리 및 친화 필드 손실을 능가하며 추가 추론 비용이 없습니다.
  • RMI는 CamVid 데이터셋에서도 주목할 만한 이점을 제공하여 데이터셋 전반에 걸친 적용 가능성을 시사합니다.
  • 평균 풀링을 포함한 다운샘플링 전략과 적당한 영역 크기가 성능과 메모리 사용을 효과적으로 균형 잡습니다.
  • 제거 실험은 더 큰 영역 크기와 더 작은 다운샘플링 계수가 일반적으로 성능을 향상시키지만 계산량을 증가시킴을 보여줍니다.
  • 클래스별 결과는 여러 카테고리의 세분화가 향상되어 경계 및 디테일 포착이 개선되었음을 반영합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.