QUICK REVIEW

[논문 리뷰] Semi-Supervised Learning in Video Sequences for Urban Scene Segmentation

Liang-Chieh Chen, Raphael Gontijo Lopes|arXiv (Cornell University)|2020. 05. 20.

Video Surveillance and Tracking Methods인용 수 16

한 줄 요약

이 논문은 도시 환경의 세분화 성능을 햖थ기 위해 비라벨 영상 시퀀스와 추가 이미지를 활용하는 단순하면서도 효과적인 반복적 준지도 학습 프레임워크를 제안한다. 라벨이 없는 데이터에 대해 의사 레이블을 생성하고 모델을 반복적으로 재학습함으로써 Naive-Student 접근법은 세 가지 Cityscapes 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성한다: 67.8% PQ, 42.6% AP, 85.2% mIOU.

ABSTRACT

Supervised learning in large discriminative models is a mainstay for modern computer vision. Such an approach necessitates investing in large-scale human-annotated datasets for achieving state-of-the-art results. In turn, the efficacy of supervised learning may be limited by the size of the human annotated dataset. This limitation is particularly notable for image segmentation tasks, where the expense of human annotation is especially large, yet large amounts of unlabeled data may exist. In this work, we ask if we may leverage semi-supervised learning in unlabeled video sequences and extra images to improve the performance on urban scene segmentation, simultaneously tackling semantic, instance, and panoptic segmentation. The goal of this work is to avoid the construction of sophisticated, learned architectures specific to label propagation (e.g., patch matching and optical flow). Instead, we simply predict pseudo-labels for the unlabeled data and train subsequent models with both human-annotated and pseudo-labeled data. The procedure is iterated for several times. As a result, our Naive-Student model, trained with such simple yet effective iterative semi-supervised learning, attains state-of-the-art results at all three Cityscapes benchmarks, reaching the performance of 67.8% PQ, 42.6% AP, and 85.2% mIOU on the test set. We view this work as a notable step towards building a simple procedure to harness unlabeled video sequences and extra images to surpass state-of-the-art performance on core computer vision tasks.

연구 동기 및 목표

정의, 인스턴스, 패널로틱 세분화에서 인간 레이블링 데이터셋의 높은 비용과 확장성 제약를 해결하기 위해.
복잡한 레이블 전파 아키텍처 없이도 라벨이 없는 영상 시퀀스와 추가 이미지가 세분화 성능 향상에 기여할 수 있는지 탐색하기 위해.
레이블 전파를 위한 전용 모델을 피하는 단순한 반복적 훈련 절차를 개발하기 위해.
최소한의 아키텍처 혁신으로 세 가지 Cityscapes 벤치마크에서 최신 기술 수준 성능을 달성하기 위해.

제안 방법

인간 레이블링 데이터로 훈련된 교사 모델을 사용하여 라벨이 없는 영상 프레임과 추가 이미지에 대해 의사 레이블을 생성한다.
실제 레이블이 있는 데이터와 의사 레이블이 있는 데이터를 동시에 사용하여 학생 모델을 종단 간(end-to-end)으로 훈련시킨다.
업데이트된 학생 모델을 사용하여 반복적으로 교사 모델을 재학습시켜 시간이 지남에 따라 의사 레이블의 품질을 향상시킨다.
패치 매칭이나 옵티컬 플로우와 같은 레이블 전파를 위한 전용 구성 요소가 없는 표준 딥러닝 아키텍처를 사용한다.
의사 레이블의 신뢰도를 향상시키기 위해 일관성 정규화와 신뢰도 필터링을 적용한다.
최종 모델을 전체 훈련 세트에 대해 실재 레이블과 의사 레이블이 있는 데이터를 모두 사용하여 미세 조정하여 성능을 최대화한다.

실험 결과

연구 질문

RQ1복잡한 레이블 전파 메커니즘 없이도 반복적 준지도 학습과 의사 레이블링이 도시 환경 세분화 성능 향상에 기여할 수 있는가?
RQ2라벨이 없는 영상 시퀀스와 추가 이미지는 정의, 인스턴스, 패널로틱 세분화에서 모델의 일반화 능력을 어느 정도 향상시킬 수 있는가?
RQ3레이블 전파를 위한 복잡한 아키텍처보다 의사 레이블링 기반의 단순한 훈련 절차가 더 뛰어난 성능을 낼 수 있는가?
RQ4제안된 방법의 성능는 Cityscapes 벤치마크에서 기존 최신 기술 수준 모델과 비교해 어떻게 되는가?

주요 결과

Naive-Student 모델은 Cityscapes 패널로틱 세분화 벤치마크에서 67.8% PQ를 달성하여 새로운 최신 기술 수준을 수립한다.
이 방법은 인스턴스 세분화에서 42.6% AP를 기록하여 Cityscapes 테스트 세트에서 이전 최신 기술 수준 결과를 초월한다.
세분화에서 85.2% mIOU를 달성하여 정의, 인스턴스, 패널로틱 세분화의 모든 세 가지 작업에서 뛰어난 성능을 보여준다.
최소한의 아키텍처 변경으로도 반복적 의사 레이블링 접근법이 복잡한 레이블 전파 모듈이 필요한 모델들을 능가하는 성능 향상을 크게 이룬다.
특수한 작업 적응 없이도 정의, 인스턴스, 패널로틱 세분화 유형 전반에서 잘 일반화된다.
결과는 라벨이 없는 영상 및 이미지 데이터가 단순하고 확장 가능한 훈련 루프를 통해 효과적으로 활용될 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.