QUICK REVIEW

[논문 리뷰] Weakly Supervised Semantic Segmentation using Web-Crawled Videos

Seunghoon Hong, Donghun Yeo|arXiv (Cornell University)|2017. 01. 02.

Advanced Image and Video Retrieval Techniques참고 문헌 35인용 수 30

한 줄 요약

이 논문은 웹에서 크롤링한 영상 자료를 활용해 가짜 세그멘테이션 마스크를 생성함으로써, 모델이 단지 분류 가능한 부분에만 집중하는 한계를 극복하는 약한 감독(semi-supervised) 세그멘테이션 방법을 제안한다. 운동 및 시공간적 특징을 활용함으로써 전체 객체를 더 잘 포괄하는 결과를 이끌어낸다. 이미지 수준의 레이블과 영상 기반의 애너테이션을 이중 분기 DCNN 프레임워크를 통해 통합함으로써, 이미지 분류를 통한 주의 맵(attention maps)과 영상 세그멘테이션을 통한 형태 추정을 동시에 활용한다. 이로 인해 PASCAL VOC에서 58.7%의 mIoU를 기록하며, 추가 애너테이션에 의존하는 기존 방법들을 능가하는 최신 기술 수준의 성능을 달성한다.

ABSTRACT

We propose a novel algorithm for weakly supervised semantic segmentation based on image-level class labels only. In weakly supervised setting, it is commonly observed that trained model overly focuses on discriminative parts rather than the entire object area. Our goal is to overcome this limitation with no additional human intervention by retrieving videos relevant to target class labels from web repository, and generating segmentation labels from the retrieved videos to simulate strong supervision for semantic segmentation. During this process, we take advantage of image classification with discriminative localization technique to reject false alarms in retrieved videos and identify relevant spatio-temporal volumes within retrieved videos. Although the entire procedure does not require any additional supervision, the segmentation annotations obtained from videos are sufficiently strong to learn a model for semantic segmentation. The proposed algorithm substantially outperforms existing methods based on the same level of supervision and is even as competitive as the approaches relying on extra annotations.

연구 동기 및 목표

약한 감독 세그멘테이션에서 모델이 분류 가능한 부분에만 집중하는 일반적인 실패 원인을 해결하기 위해.
추가적인 인간 애너테이션의 필요성을 제거하기 위해, 자동으로 웹 영상을 검색하고 이를 강한 감독의 소스로 활용하기 위해.
영상의 시간적 동적 특징과 운동 특징을 활용하여 세그멘테이션 정확도를 향상시키고, 이미지 기반 주의 맵을 통해 노이즈를 감소시키기 위해.
추가 감독 없이도 영상과 이미지를 동시에 활용하는 통합된 딥 러닝 프레임워크를 개발하여 엔드 투 엔드 세그멘테이션을 구현하기 위해.

제안 방법

클래스 레이블을 검색 키워드로 사용하여 웹 영상을 검색하고, 인간 간섭 없이 약한 애너테이션을 가진 영상 컬렉션을 생성한다.
이미지 수준의 레이블이 부여된 이미지에 대해 인코더 네트워크를 훈련시켜 분류 가능한 객체 부분을 국소화하는 주의 맵을 생성한다.
주의 맵을 활용해 관련이 없는 영상 프레임을 필터링하고, 시공간적 관심 영역을 식별함으로써 시간적 및 공간적 모호성을 감소시킨다.
운동, 색상, 주의 맵을 기반으로 한 그래프 최적화를 적용하여 영상 내 객체 후보를 세그멘테이션하고, 가짜 세그멘테이션 마스크를 생성한다.
영상에서 생성된 마스크를 가짜 지도 신호로 사용하여 디코더 네트워크를 훈련시키며, 이미지 훈련에서 유도된 인코더는 고정한다.
이미지와 영상 데이터를 하나의 DCNN 프레임워크에 통합하여, 이미지 데이터가 영상 기반 세그멘테이션의 안정성을 높이고, 영상 데이터가 경계 국소화 정확도를 향상시킨다.

실험 결과

연구 질문

RQ1웹에서 크롤링한 영상 자료를 효과적으로 활용하여 약한 감독 세그멘테이션을 위한 고품질의 가짜 세그멘테이션 마스크를 생성할 수 있는가?
RQ2이미지 수준의 레이블을 활용하여 자동으로 확보된 영상의 노이즈와 모호성을 줄일 수 있는가?
RQ3영상의 시간적 특징과 운동 특징을 통합할 경우, 순수하게 이미지 기반의 약한 감독 방법보다 세그멘테이션 정확도가 향상되는가?
RQ4이미지 수준의 레이블과 웹 영상만을 사용하여 훈련된 모델이, 경계 상자나 스케치와 같은 추가 애너테이션을 사용하는 방법과 경쟁 가능한 성능을 달성할 수 있는가?

주요 결과

제안된 방법은 PASCAL VOC 2012 검증 세트에서 58.7%의 평균 교차율(mIoU)을 기록하여, 이미지 수준의 레이블만을 사용하는 기존의 약한 감독 방법들보다 뚜렷이 뛰어난 성능을 보였다.
영상 세그멘테이션을 활용하는 SEC 및 MCNN와 같은 최신 기술 수준의 방법들보다도 더 정확한 객체 경계를 포착하고 더 넓은 객체 영역을 커버함으로써 슈퍼리어한 성능을 기록했다.
YouTube-Object 벤치마크에서 카테고리 수준 세그멘테이션에 대해 58.6%의 mIoU, 영상 수준에 대해 57.1%의 mIoU를 기록하여, 저수준 특징을 사용하는 방법들조차도 능가했으며, 경계 상자 지도를 사용하는 방법들조차도 앞서는 성능을 보였다.
이미지 분류에서 유도된 주의 맵은 관련 없는 영상 프레임과 영역을 필터링함으로써 영상 세그멘테이션에서 잘못된 양성 결과(false positives)를 크게 감소시켰다.
모델은 가림, 배경 혼잡, 다중 객체, 운동 모호성과 같은 어려운 영상 시나리오를 효과적으로 처리하였다.
웹에서 크롤링한 영상 자료에 이미지 수준의 감독을 결합할 경우, 강한 감독을 시뮬레이션하는 데 효과적임을 입증하였으며, 추가 애너테이션을 사용하는 방법들과 비교해도 경쟁 가능한 성능을 달성함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.