QUICK REVIEW

[논문 리뷰] MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training

De-An Huang, Zhiding Yu|arXiv (Cornell University)|2022. 08. 03.

Advanced Image and Video Retrieval Techniques인용 수 28

한 줄 요약

MinVIS는 이미지 기반의 쿼리 주도 모델만으로 학습하고, 온라인 쿼리 매칭을 통해 프레임 간 인스턴스를 추적하며 비디오 기반 학습 절차 없이도 최첨단의 VIS를 달성한다.

ABSTRACT

We propose MinVIS, a minimal video instance segmentation (VIS) framework that achieves state-of-the-art VIS performance with neither video-based architectures nor training procedures. By only training a query-based image instance segmentation model, MinVIS outperforms the previous best result on the challenging Occluded VIS dataset by over 10% AP. Since MinVIS treats frames in training videos as independent images, we can drastically sub-sample the annotated frames in training videos without any modifications. With only 1% of labeled frames, MinVIS outperforms or is comparable to fully-supervised state-of-the-art approaches on YouTube-VIS 2019/2021. Our key observation is that queries trained to be discriminative between intra-frame object instances are temporally consistent and can be used to track instances without any manually designed heuristics. MinVIS thus has the following inference pipeline: we first apply the trained query-based image instance segmentation to video frames independently. The segmented instances are then tracked by bipartite matching of the corresponding queries. This inference is done in an online fashion and does not need to process the whole video at once. MinVIS thus has the practical advantages of reducing both the labeling costs and the memory requirements, while not sacrificing the VIS performance. Code is available at: https://github.com/NVlabs/MinVIS

연구 동기 및 목표

비디오 기반 학습이나 아키텍처 없이도 경쟁력 있는 VIS 성능이 달성될 수 있음을 입증한다.
쿼리 기반 이미지 인스턴스 분할 모델이 프레임 간 추적을 위해 쿼리 매칭으로 사용될 수 있음을 보여준다.
희소한 프레임 주석(최소 1%)으로의 학습이 YouTube-VIS에서 경쟁력을 유지하고 OCclusion이 많은 데이터(OVIS)에서 뛰어남을 보인다.
프레임 내 쿼리 해리 분리와 프레임 간 시간적 일관성이 핸드크래프트 추적 규칙 없이도 추적을 가능하게 함을 분석한다.

제안 방법

독립된 프레임에서 이미지 인스턴스 분할 모델(이미지 인코더 + 트랜스포머 디코더) 학습.
세분화 마스크가 최종 이미지 피처 맵과 쿼리 임베딩의 합성으로 생성되도록 강제(M = sigmoid(Q * F_{-1}))
연속 프레임에서 쿼리 임베딩의 온라인 2분할 매칭(코사인 유사도 기반, Hungarian 알고리즘)으로 인스턴스 추적
비디오 기반 학습 손실은 피하고, 감독은 이분 매칭을 통한 분류 및 마스크 손실의 이미지 기반 손실만 사용
주석 하향 샘플링(최소 1%)을 허용하되 모델이나 학습 절차의 변경 없이 수행
핸드크래프트된 추적 규칙의 필요성을 검증하기 위해 순수 쿼리 기반 추적과 휴리스틱 후처리를 비교(optionally)

실험 결과

연구 질문

RQ1비디오 기반 학습이나 아키텍처 없이도 경쟁력 있는 VIS를 달성할 수 있는가?
RQ2이미지 인스턴스 분할에서 학습된 쿼리 임베딩이 프레임 간 추적에 적합한 시계열 일관된 표현을 제공하는가?
RQ3희소한 프레임 주석으로의 학습이 표준 및 가림데케 데이터셋에서 VIS 성능에 어떤 영향을 미치는가?

주요 결과

Method	Backbone	Training	AP	AP 50	AP 75	AR 1	AR 10
TeViT	R50	Full	42.1	67.8	44.8	41.3	49.4
TeViT	MsgShifT	Full	46.6	71.3	51.6	44.9	54.3
SeqFormer	R50	Full	45.1	66.9	50.5	45.6	54.6
SeqFormer	R50	Full+C80k	47.4	69.8	51.8	45.5	54.8
Mask2Former-VIS	R50	Full	46.4	68.0	50.0	–	–
MinVIS	R50	Full	47.4	69.0	52.1	45.7	55.7
TeViT	Swin-L	Full	56.8	80.6	63.1	52.0	63.3
SeqFormer	Swin-L	Full+C80k	59.3	82.1	66.4	51.7	64.4
Mask2Former-VIS	Swin-L	Full	60.4	84.4	67.0	–	–
MinVIS	Swin-L	Full	61.6	83.3	68.6	54.8	66.6
MinVIS	Swin-L	1%	59.0	81.6	64.7	54.0	64.0
MinVIS	Swin-L	5%	59.3	81.4	65.8	53.8	64.1
MinVIS	Swin-L	10%	61.0	83.0	67.7	54.6	66.1

ResNet-50 백본을 사용한 MinVIS는 YouTube-VIS 2019에서 AP 47.4, Mask2Former-VIS 기준선에서 46.4 AP를 달성하고, Swin-L을 사용한 MinVIS는 YouTube-VIS 2019에서 AP 61.6, YouTube-VIS 2021에서 AP 55.3, OVIS에서 39.4 AP(다양한 설정) 달성.
라벨링된 학습 프레임의 1%만 사용해도 MinVIS는 YouTube-VIS 2019에서 예: 59.0 AP, YouTube-VIS 2021에서 52.9 AP; OVIS에서 백본에 따라 31.7–39.4 사이로 경쟁력을 유지하며 주석 감소에 강건함을 보인다.
YouTube-VIS 2019/2021에서 Swin-L을 사용하는 MinVIS가 상태-of-the-art per-clip 메서드보다 우수하거나 일치하는 경우가 많으며, OVIS에서 MinVIS는 큰 이득을 얻는다(예: Swin-L의 39.4 AP와 비교해 베이스라인의 25.8–28.9 대비 큰 차이).
휴리스틱 없이 쿼리 기반 추적만으로도 강력한 시간적 연관성을 보이며, 제거실험(ablation)에서 쿼리 매칭만 사용하는 것이 평가 데이터셋에서 휴리스틱과 결합하는 것보다 동일하거나 더 나은 경우가 많다.
온라인 추론과 프레임 단위 처리 지원으로 전체 비디오를 한 번에 필요로 하지 않아 메모리 및 라벨링 비용을 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.