QUICK REVIEW

[논문 리뷰] Improving Semantic Segmentation via Video Propagation and Label Relaxation

Yi Zhu, Karan Sapra|arXiv (Cornell University)|2018. 12. 04.

Advanced Neural Network Applications참고 문헌 46인용 수 37

한 줄 요약

이 논문은 영상 예측 기반 데이터 증강 방법을 제안하여, 공동 이미지-라벨 전파와 경계 라벨 완화를 도입함으로써 전파 아티팩트로 인한 노이즈를 줄이고 모델 정확도를 향상시킨다. 이 방법은 앙상블을 사용하지 않고 단일 모델로 Cityscapes에서 83.5%, CamVid에서 82.9%, KITTI에서 72.8%의 최신 기술 수준(mIoU) 성능을 달성한다.

ABSTRACT

Semantic segmentation requires large amounts of pixel-wise annotations to learn accurate models. In this paper, we present a video prediction-based methodology to scale up training sets by synthesizing new training samples in order to improve the accuracy of semantic segmentation networks. We exploit video prediction models' ability to predict future frames in order to also predict future labels. A joint propagation strategy is also proposed to alleviate mis-alignments in synthesized samples. We demonstrate that training segmentation models on datasets augmented by the synthesized samples leads to significant improvements in accuracy. Furthermore, we introduce a novel boundary label relaxation technique that makes training robust to annotation noise and propagation artifacts along object boundaries. Our proposed methods achieve state-of-the-art mIoUs of 83.5% on Cityscapes and 82.9% on CamVid. Our single model, without model ensembles, achieves 72.8% mIoU on the KITTI semantic segmentation test set, which surpasses the winning entry of the ROB challenge 2018. Our code and videos can be found at https://nv-adlr.github.io/publication/2018-Segmentation.

연구 동기 및 목표

정밀한 픽셀 단위 라벨링의 높은 비용과 어려움을 해결하기 위해, 효율적으로 훈련 데이터를 확장하는 것을 목적으로 한다.
특히 물체 경계 부근에서 발생하는 영상 예측 아티팩트로 인한 비정상적인 정렬 오류와 노이즈를 줄이기 위한 목적으로 한다.
라벨 전파 과정에서의 불확실성을 모델링하기 위해 경계 라벨 완화 기법을 도입함으로써 모델의 강인성과 정확도를 향상시키는 것을 목적으로 한다.
영상 예측 기반 데이터 합성 기법이 기존의 옵티컬 플로우 기반 전파 및 인간 라벨링 데이터만을 사용하는 것보다 우수한 성능을 보임을 입증하는 것을 목적으로 한다.
앙상블 모델이 필요 없이 단일 모델로 주요 벤치마크에서 최신 기술 수준의 성능을 달성하는 것을 목적으로 한다.

제안 방법

훈련된 영상 예측 모델을 활용하여 이미지와 그에 해당하는 세분화 라벨을 시간에 따라 전파함으로써 새로운 합성 이미지-라벨 쌍을 생성한다.
이미지와 라벨을 동일한 모델을 사용해 동시에 전파하는 공동 이미지-라벨 전파(JP) 기법을 도입하여 공간적 정렬을 유지한다.
물체 경계 부근에서 인접한 클래스 확률의 합집합 가능도를 최대화함으로써 라벨 완화를 적용하여, 노이즈가 많은 전파된 라벨에 대한 과도한 확신을 줄인다.
다중 단계 전파를 통해 동일한 영상 예측 모델을 활용하여 훈련 데이터를 확장한다.
실제 데이터와 합성 데이터의 조합으로 세분화 모델을 훈련하며, 훈련 중에 라벨 완화 기법을 적용하여 강인성을 향상시킨다.
특히 KITTI와 같이 작은 데이터셋에 대해 성능을 더욱 향상시키기 위해 테스트 세트에서 다중 해상도 추론 전략을 활용한다.

실험 결과

연구 질문

RQ1영상 예측 모델을 효과적으로 활용하여 세분화를 위한 고품질의 정렬된 이미지-라벨 쌍을 합성할 수 있는가?
RQ2독립적인 이미지 및 라벨 전파와 비교해 공동 이미지-라벨 전파가 정렬 오류 아티팩트를 줄이는가?
RQ3경계 라벨 완화 기법이 합성 데이터의 라벨 노이즈와 전파 오류에 대한 모델 강인성을 향상시키는가?
RQ4제안된 방법이 최신 기술 수준의 방법들과 비교해 벤치마크 데이터셋에서 세분화 정확도를 얼마나 향상시키는가?
RQ5이 방법으로 훈련된 단일 모델이 KITTI와 같이 도전적인 벤치마크에서 앙상블 기반 접근법을 초월할 수 있는가?

주요 결과

제안된 방법은 Cityscapes 검증 세트에서 최신 기술 수준의 mIoU 83.5%를 달성하여 이전 방법들을 능가한다.
CamVid 데이터셋에서는 단일 해상도 평가에서 mIoU 81.7%, 다중 해상도 평가에서 82.9%를 기록하여 이전 최신 기술 수준을 크게 능가한다.
KITTI 벤치마크에서는 단일 모델로 mIoU 72.8%를 달성하여, 5개 모델의 앙상블을 사용한 2018년 ROB 챌린지 우승자보다 뛰어난 성능을 보였다.
제거 실험 결과, 증강 데이터와 라벨 완화 기법을 제거할 경우 CamVid에서 mIoU가 1.9% 감소함을 확인하여 두 구성 요소의 효과를 입증했다.
경계 라벨 완화 기법 덕분에 더 긴 거리의 전파가 가능해졌으며, 이는 정확도와 강인성 향상에 기여했다.
영상 예측 모델이 데이터 합성에 더 우수함을 입증하기 위해, 옵티컬 플로우 기반 전파 기반선과 비교해 세분화 성능에서 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.