Skip to main content
QUICK REVIEW

[논문 리뷰] The 2019 DAVIS Challenge on VOS: Unsupervised Multi-Object Segmentation

Sergi Caelles, Jordi Pont-Tuset|arXiv (Cornell University)|2019. 05. 02.
Visual Attention and Saliency Detection참고 문헌 45인용 수 100
한 줄 요약

DAVIS용 비지도 다중 객체 비디오 객체 분할 트랙을 소개하고, 일관성을 위해 DAVIS 2017 train/val을 재주석하며, 새로운 테스트 세트에서 RVOS의 베이스라인 결과를 제공합니다.

ABSTRACT

We present the 2019 DAVIS Challenge on Video Object Segmentation, the third edition of the DAVIS Challenge series, a public competition designed for the task of Video Object Segmentation (VOS). In addition to the original semi-supervised track and the interactive track introduced in the previous edition, a new unsupervised multi-object track will be featured this year. In the newly introduced track, participants are asked to provide non-overlapping object proposals on each image, along with an identifier linking them between frames (i.e. video object proposals), without any test-time human supervision (no scribbles or masks provided on the test video). In order to do so, we have re-annotated the train and val sets of DAVIS 2017 in a concise way that facilitates the unsupervised track, and created new test-dev and test-challenge sets for the competition. Definitions, rules, and evaluation metrics for the unsupervised track are described in detail in this paper.

연구 동기 및 목표

  • 비지도 멀티 오브젝트 VOS 트랙을 도입하여 완전 자동 시나리오를 다루려는 동기를 제시한다.
  • 비지도 다중 객체 VOS의 명확한 정의와 객체 선택 및 그룹화 기준을 제시한다.
  • 시퀀스 전반에서 비지도 제안을 일관되게 평가하기 위한 평가 지표 및 규칙을 제공한다.
  • DAVIS 2017 train/val을 비지도 가이드라인에 맞추어 재주석하고 비지도 트랙용 신규 test-dev/challenge 세트를 발행한다.
  • 비지도 다중 객체 VOS의 난이도를 측정하기 위한 기준선을 설정한다(예: RVOS).

제안 방법

  • 의미론에 초점을 둔 객체 선택 및 프레임 간 일관된 마스크 추적을 갖는 비지도 다중 객체 VOS를 정의한다.
  • J&F 기반 정확도 매트릭스를 사용한 이분매칭(Bipartite matching) 공식화를 제시하고 Hungarian 알고리즘으로 예측 비디오 객체 제안을 지상참조 객체에 할당한다.
  • 시퀀스당 N개의 비중첩 비디오 객체 제안 풀을 사용하고 각 지상참조 객체를 하나의 제안에 매칭하여 M(O_gt, O_n)을 최대화한다.
  • 세퍼트/세트와 유사한 평가 관행을 반영하기 위해 J&F 지표를 채택하여 개체별 및 시퀀스별 점수를 계산한다.
  • 제로샷 모드에서 RVOS를 베이스라인으로 사용하여 비지도 성능을 정량화한다(시퀀스당 20개의 제안).
  • 비지도 정의와 일치하도록 DAVIS 2017 train/val을 재주석하고 비지도 트랙의 새로운 test-dev/test-challenge 세트를 도입한다.

실험 결과

연구 질문

  • RQ1비지도 다중 객체 VOS가 인간의 주의 및 의미 경계를 반영하도록 객체를 어떻게 선택하고 그룹화해야 하는가?
  • RQ2비지도 다중 객체 VOS 성능을 가장 잘 측정하는 평가 프레임워크(지표와 매칭 방식)는 무엇인가?
  • RQ3재주석된 DAVIS 2017 Unsupervised 데이터에서 제로샷 비디오 객체 제안 방법(RVOS)의 성능은 어떠한가?
  • RQ4DAVIS 파생 벤치마크에서 비지도와 반지도 VOS 성능의 차이는 어디에 있는가?

주요 결과

세트J&FJ 평균J 재현율J 소실F 평균F 재현율F 소실
val41.236.840.20.545.746.41.7
test-dev22.517.716.21.627.324.81.8
  • 새로운 비지도 다중 객체 트랙이 DAVIS 프레임워크 내에서 정의되고 평가된다.
  • 저자들은 비지도 의미론에 맞추어 DAVIS 2017 train/val을 재주석하고 비지도 트랙에 대한 test-dev/test-challenge를 추가했다.
  • 제로샷 모드의 RVOS가 베이스라인 결과를 제공하여 비지도 다중 객체 VOS의 난이도가 반지도 설정에 비해 증가했음을 보여준다.
  • DAVIS 2017 Unsupervised에서 RVOS는 val에서 41.2 J&F 및 36.8 J Mean, test-dev에서 22.5 J&F 및 17.7 J Mean를 달성; F1 및 관련 재현율/감소도 보고된다.
  • 예측 제안을 지상참조 물체에 할당하기 위해 최대 이분 매칭(Hungarian 알고리즘)을 사용하여 정확도 매트릭스 M을 L개의 지상참조 물체와 N개의 제안 간에 최대화한다.
  • 다중 객체 비지도 VOS는 반지도 VOS보다 여전히 상당히 더 어려운 것으로 보이며, 보고된 베이스라인 성능에서 이를 확인할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.