QUICK REVIEW

[논문 리뷰] Video Object Segmentation with Adaptive Feature Bank and Uncertain-Region Refinement

Yongqing Liang, Xin Li|arXiv (Cornell University)|2020. 10. 15.

Visual Attention and Saliency Detection참고 문헌 33인용 수 78

한 줄 요약

적응형 특징 은행과 불확실 영역 정제 기법을 제안하여 반감습 비디오 객체 분할을 향상시키고, 온라인 미세 조정 없이 DAVIS16/17 및 YouTube-VOS 벤치마크에서 최신 성능을 달성한다.

ABSTRACT

We propose a new matching-based framework for semi-supervised video object segmentation (VOS). Recently, state-of-the-art VOS performance has been achieved by matching-based algorithms, in which feature banks are created to store features for region matching and classification. However, how to effectively organize information in the continuously growing feature bank remains under-explored, and this leads to inefficient design of the bank. We introduce an adaptive feature bank update scheme to dynamically absorb new features and discard obsolete features. We also design a new confidence loss and a fine-grained segmentation module to enhance the segmentation accuracy in uncertain regions. On public benchmarks, our algorithm outperforms existing state-of-the-arts.

연구 동기 및 목표

긴 영상에서 매칭 기반 VOS를 위한 메모리 관리 개선의 동기를 부여한다.
새로운 특징을 흡수하고 구식 특징을 버리는 적응형 특징 은행을 개발한다.
경계 불확실성을 더 잘 다루기 위한 불확실 영역 정제 모듈을 도입한다.
분할 불확실성을 줄이기 위해 교차 엔트로피 손실과 신뢰도 기반 손실을 결합한 프레임워크를 학습한다.
긴 영상 및 다수의 벤치마크에서 견고성과 효율성을 입증한다.

제안 방법

쿼리 인코더와 객체별 특징 은행을 갖춘 매칭 기반 분할 파이프라인을 사용한다.
각 객체에 대해 유사한 특징을 병합하고 구별된 특징을 추가하는 적응형 특징 은행을 유지한다(Equations 3–5).
메모리 예산을 넘지 않도록 LFU 기반 정책으로 구식 특징을 제거한다(Equation 6).
픽셀 단위의 불확실성 지도를 계산하고 신뢰도 손실을 도입하는 불확실 영역 정제(URR)(Equations 7–9).
주변 참조를 활용한 로컬 정제 메커니즘을 적용하여 애매한 경계를 정제한다(Equations 10–12).
온라인 미세 조정 없이 분류 손실과 신뢰도 손실의 조합으로 학습한다.

실험 결과

연구 질문

RQ1매칭 기반 VOS를 위한 긴 비디오의 객체 기억을 적응형 특징 은행이 어떻게 효율적으로 관리할 수 있을까?
RQ2신뢰 기반 불확실 영역 정제를 도입하는 것이 경계 정확도와 전반적 분할 품질을 향상시키는가?
RQ3제안된 방법이 온라인 미세 조정 없이 표준 VOS 벤치마크에서 최신 성능을 능가할 수 있는가?

주요 결과

방법	OL	J_M	J_R	J_D	F_M	F_R	J_D	J&F_M
RANet		63.2	73.7	18.6	68.2	78.8	19.7	65.7
AGSS		63.4	-	-	69.8	-	-	66.6
RGMP		64.8	74.1	18.9	68.6	77.7	19.6	66.7
OSVOS S	Yes	64.7	74.2	15.1	71.3	80.7	18.5	68.0
CINM	Yes	67.2	74.5	24.6	74.0	81.6	26.2	70.6
A-GAME (+YV)		68.5	78.4	14.0	73.6	83.4	15.8	71.0
FEELVOS (+YV)		69.1	79.1	17.5	74.0	83.8	20.1	71.5
STM		69.2	-	-	74.0	-	-	71.6
Ours		73.0	85.3	13.8	76.1	87.0	15.5	74.6

온라인 미세 조정 없이 DAVIS17 및 YouTube-VOS 벤치마크에서 최신 방법들을 능가한다.
동적 특징 뱅킹과 LFU 기반 가지치기로 긴 비디오에서 강력한 성능을 보여준다.
URR은 신뢰도 손실과 로컬 정제를 통해 경계 및 불확실 영역 분할을 향상시킨다.
AFB는 메모리 효율성을 제공하여 긴 비디오를 경쟁력 있는 런타임으로 처리하게 한다.
제거 실험은 전체 프레임워크(AFB+URR)가 변형들보다 최상의 J&F 점수를 산출함을 보여준다.
DAVIS17에서 온라인 미세 조정 없이 J&F 74.6 및 1080Ti에서 4.0 fps를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.