Skip to main content
QUICK REVIEW

[논문 리뷰] FusionSeg: Learning to combine motion and appearance for fully automatic segmention of generic objects in videos

Suyog Dutt Jain, Bo Xiong|arXiv (Cornell University)|2017. 01. 19.
Visual Attention and Saliency Detection참고 문헌 44인용 수 151
한 줄 요약

FusionSeg는 영상에서 일반 객체의 픽셀 수준 전경 분할을 위해 모습 및 모션 단서를 함께 학습하는 두 스트림 CNN을 제시하며, 약한 영상 데이터와 이미지 주석으로 학습된다; DAVIS, YouTube-Objects, SegTrack-v2에서 최첨단 성능을 달성한다.

ABSTRACT

We propose an end-to-end learning framework for segmenting generic objects in videos. Our method learns to combine appearance and motion information to produce pixel level segmentation masks for all prominent objects in videos. We formulate this task as a structured prediction problem and design a two-stream fully convolutional neural network which fuses together motion and appearance in a unified framework. Since large-scale video datasets with pixel level segmentations are problematic, we show how to bootstrap weakly annotated videos together with existing image recognition datasets for training. Through experiments on three challenging video segmentation benchmarks, our method substantially improves the state-of-the-art for segmenting generic (unseen) objects. Code and pre-trained models are available on the project website.

연구 동기 및 목표

  • 범주 특화 모델에 의존하지 않고 비디오에서 일반 객체의 완전 자동 분할을 동기 부여하고 가능하게 한다.
  • 모양(image appearance)과 모션에서의 보완 신호를 활용하여 픽셀 수준의 분할을 향상시킨다.
  • 대규모 픽셀 수준 동영상 데이터셋이 부족한 이유로 이미지 주석과 약한 비디오 데이터를 부트스트래핑해 학습 전략을 개발한다.
  • 여러 도전적인 비디오 분할 벤치마크에서 최신 성능을 입증한다.

제안 방법

  • RGB 프레임(appearance 스트림)과 색상 인코딩된 옵티컬 플로우를 처리하는 두 스트림 완전 합성곱 신경망.
  • appearance 스트림은 다중 스케일 병렬 확장 가지를 갖춘 확장된 ResNet-101(dilated-ResNet-101)에 기반하여 픽셀 단위의 객체 가능도 맵을 생성한다.
  • motion 스트림은 동일한 아키텍처를 사용하되 옵티컬 플로우 입력으로 학습하고, 바운딩 박스와 흐름 기반 필터링에서 도출된 의사-지상참값(pseudo-ground truth)을 사용해 부트스트랩한다.
  • 퓨전 모델은 세 가지 분기를 통해 스트림을 결합한다: appearance 먼저 motion, motion 먼저 appearance, 그리고 쌍별 곱(Pairwise product); 그다음 최종 세그먼트를 얻기 위한 최대화 연산(max operation)을 수행한다.
  • 학습 데이터는 이미지 분할 데이터셋(예: PASCAL VOC 2012)과 약한 바운딩 박스 비디오 주석(ImageNet-Video)에서 부트스트래핑으로 수집되며, 모션 네트워크 학습용 고품질 가짜 지상참값(pseudo-ground truth)을 생성하기 위한 필터링 단계를 포함한다.

실험 결과

연구 질문

  • RQ1appearance와 motion 신호를 엔드-투-엔드로 학습 가능한 프레임워크에서 융합하여 비디오에서 일반적인 전경 객체를 자동으로 분할할 수 있는가?
  • RQ2대규모 픽셀 수준의 비디오 주석이 이용 불가능할 때 심층 모델을 비디오 분할 학습시키는 방법은?
  • RQ3다양한 비디오 벤치마크에서 appearance 또는 motion 단일 신호를 사용하는 것보다 두 신호를 공동으로 모델링하는 것이 더 성능이 우수한가?
  • RQ4이미지 분할 데이터와 약한 비디오 주석을 활용해 움직이는 객체와 정지 객체 모두에 대해 강건한 픽셀 수준 분할을 학습시키는 학습 전략은 무엇인가?

주요 결과

  • 합쳐진 appearance+motion 모델은 개별 스트림에 비해 유의한 개선을 보이며, DAVIS에서 최대 11퍼센트 포인트까지 향상된다.
  • DAVIS에서 결합 모델(Ours-Joint)은 평균 IoU 71.51%를 달성하여 자동 baselines 다수와 일부 반지도 학습 기반의 기준값을 능가한다.
  • YouTube-Objects에서 결합 모델은 평균 IoU 68.43%를 달성하여 다수의 최첨단 자동 방법을 능가하고 반감사 학습 접근법과도 경쟁력을 유지한다.
  • SegTrack-v2에서 결합 모델은 평균 IoU 61.40%를 달성해 다수의 기반선들을 상회하며 데이터 세트 간 모션과 appearance 융합의 이점을 보여준다.
  • 해당 방법은 완전 자동 방법은 물론 사람의 입력이 필요한 일부 반지도 학습 방법보다도 우수하며 테스트 시에도 완전히 자동으로 작동한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.