QUICK REVIEW

[논문 리뷰] The 2019 DAVIS Challenge on VOS: Unsupervised Multi-Object Segmentation

Sergi Caelles, Jordi Pont-Tuset|arXiv (Cornell University)|2019. 05. 02.

Visual Attention and Saliency Detection참고 문헌 45인용 수 100

한 줄 요약

DAVIS용 비지도 다중 객체 비디오 객체 분할 트랙을 소개하고, 일관성을 위해 DAVIS 2017 train/val을 재주석하며, 새로운 테스트 세트에서 RVOS의 베이스라인 결과를 제공합니다.

ABSTRACT

We present the 2019 DAVIS Challenge on Video Object Segmentation, the third edition of the DAVIS Challenge series, a public competition designed for the task of Video Object Segmentation (VOS). In addition to the original semi-supervised track and the interactive track introduced in the previous edition, a new unsupervised multi-object track will be featured this year. In the newly introduced track, participants are asked to provide non-overlapping object proposals on each image, along with an identifier linking them between frames (i.e. video object proposals), without any test-time human supervision (no scribbles or masks provided on the test video). In order to do so, we have re-annotated the train and val sets of DAVIS 2017 in a concise way that facilitates the unsupervised track, and created new test-dev and test-challenge sets for the competition. Definitions, rules, and evaluation metrics for the unsupervised track are described in detail in this paper.

연구 동기 및 목표

비지도 멀티 오브젝트 VOS 트랙을 도입하여 완전 자동 시나리오를 다루려는 동기를 제시한다.
비지도 다중 객체 VOS의 명확한 정의와 객체 선택 및 그룹화 기준을 제시한다.
시퀀스 전반에서 비지도 제안을 일관되게 평가하기 위한 평가 지표 및 규칙을 제공한다.
DAVIS 2017 train/val을 비지도 가이드라인에 맞추어 재주석하고 비지도 트랙용 신규 test-dev/challenge 세트를 발행한다.
비지도 다중 객체 VOS의 난이도를 측정하기 위한 기준선을 설정한다(예: RVOS).

제안 방법

의미론에 초점을 둔 객체 선택 및 프레임 간 일관된 마스크 추적을 갖는 비지도 다중 객체 VOS를 정의한다.
J&F 기반 정확도 매트릭스를 사용한 이분매칭(Bipartite matching) 공식화를 제시하고 Hungarian 알고리즘으로 예측 비디오 객체 제안을 지상참조 객체에 할당한다.
시퀀스당 N개의 비중첩 비디오 객체 제안 풀을 사용하고 각 지상참조 객체를 하나의 제안에 매칭하여 M(O_gt, O_n)을 최대화한다.
세퍼트/세트와 유사한 평가 관행을 반영하기 위해 J&F 지표를 채택하여 개체별 및 시퀀스별 점수를 계산한다.
제로샷 모드에서 RVOS를 베이스라인으로 사용하여 비지도 성능을 정량화한다(시퀀스당 20개의 제안).
비지도 정의와 일치하도록 DAVIS 2017 train/val을 재주석하고 비지도 트랙의 새로운 test-dev/test-challenge 세트를 도입한다.

실험 결과

연구 질문

RQ1비지도 다중 객체 VOS가 인간의 주의 및 의미 경계를 반영하도록 객체를 어떻게 선택하고 그룹화해야 하는가?
RQ2비지도 다중 객체 VOS 성능을 가장 잘 측정하는 평가 프레임워크(지표와 매칭 방식)는 무엇인가?
RQ3재주석된 DAVIS 2017 Unsupervised 데이터에서 제로샷 비디오 객체 제안 방법(RVOS)의 성능은 어떠한가?
RQ4DAVIS 파생 벤치마크에서 비지도와 반지도 VOS 성능의 차이는 어디에 있는가?

주요 결과

세트	J&F	J 평균	J 재현율	J 소실	F 평균	F 재현율	F 소실
val	41.2	36.8	40.2	0.5	45.7	46.4	1.7
test-dev	22.5	17.7	16.2	1.6	27.3	24.8	1.8

새로운 비지도 다중 객체 트랙이 DAVIS 프레임워크 내에서 정의되고 평가된다.
저자들은 비지도 의미론에 맞추어 DAVIS 2017 train/val을 재주석하고 비지도 트랙에 대한 test-dev/test-challenge를 추가했다.
제로샷 모드의 RVOS가 베이스라인 결과를 제공하여 비지도 다중 객체 VOS의 난이도가 반지도 설정에 비해 증가했음을 보여준다.
DAVIS 2017 Unsupervised에서 RVOS는 val에서 41.2 J&F 및 36.8 J Mean, test-dev에서 22.5 J&F 및 17.7 J Mean를 달성; F1 및 관련 재현율/감소도 보고된다.
예측 제안을 지상참조 물체에 할당하기 위해 최대 이분 매칭(Hungarian 알고리즘)을 사용하여 정확도 매트릭스 M을 L개의 지상참조 물체와 N개의 제안 간에 최대화한다.
다중 객체 비지도 VOS는 반지도 VOS보다 여전히 상당히 더 어려운 것으로 보이며, 보고된 베이스라인 성능에서 이를 확인할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.