QUICK REVIEW

[논문 리뷰] ReMOTS: Self-Supervised Refining Multi-Object Tracking and Segmentation

Fan Yang, Xin Chang|arXiv (Cornell University)|2020. 07. 07.

Video Surveillance and Tracking Methods참고 문헌 4인용 수 25

한 줄 요약

ReMOTS는 프레임 내 및 단기 트랙렛 간 학습을 통해 반복적으로 외관 특징 학습을 향상시키는 자기지도 학습 프레임워크를 제안한다. 이를 통해 다중 객체 추적 및 분할(MOTS) 성능을 향상시킨다. CVPR 2020 MOTS 챌린지에서 69.9 sMOTSA 점수를 기록하여 최신 기술 수준(SOTA) 성능을 달성하였으며, 지도 학습 없이도 자동으로 병합 임계값을 설정하기 위해 통계 분석을 사용한다.

ABSTRACT

We aim to improve the performance of Multiple Object Tracking and Segmentation (MOTS) by refinement. However, it remains challenging for refining MOTS results, which could be attributed to that appearance features are not adapted to target videos and it is also difficult to find proper thresholds to discriminate them. To tackle this issue, we propose a self-supervised refining MOTS (i.e., ReMOTS) framework. ReMOTS mainly takes four steps to refine MOTS results from the data association perspective. (1) Training the appearance encoder using predicted masks. (2) Associating observations across adjacent frames to form short-term tracklets. (3) Training the appearance encoder using short-term tracklets as reliable pseudo labels. (4) Merging short-term tracklets to long-term tracklets utilizing adopted appearance features and thresholds that are automatically obtained from statistical information. Using ReMOTS, we reached the $1^{st}$ place on CVPR 2020 MOTS Challenge 1, with an sMOTSA score of $69.9$.

연구 동기 및 목표

지도 학습 없이도 외관 특징의 자기지도 학습 정교화를 통해 다중 객체 추적 및 분할(MOTS) 성능을 향상시키는 것.
지상 진술(annotation)이 없는 타겟 비디오에 대해 외관 특징를 적응시키는 과제를 해결하는 것.
외관 특징 분포의 통계 분 析를 통해 단기 트랙렛 병합을 위한 최적의 임계값을 자동으로 결정하는 것.
시간적·공간적 일관성 원칙을 활용해 프레임 내 및 트랙렛 간 일致성을 확보함으로써 MOTS의 데이터 연관성을 향상시키는 것.

제안 방법

ReMOTS는 동일 프레임의 예측 마스크를 사용하여 외관 인코더를 훈련시키며, 대조 학습을 위한 양성 및 음성 삼중조를 구성한다.
광학 흐름과 외관 유사도를 이용해 인접 프레임 간 마스크를 연동하여 단기 트랙렛을 구성하며, IoU와 코사인 유사도를 조합한 거리 행렬을 사용한다.
이러한 단기 트랙렛을 의사 레이블로 사용하여 외관 인코더를 재학습함으로써 특징의 구분 능력을 향상시킨다.
시간적·공간적 제약 조건을 강제하는 거리 행렬을 사용하여 단기 트랙렛을 계층적 군집화를 통해 장기 트랙으로 병합한다.
트랙렛 간 코사인 유사도 히스토그램의 피크에서 유도된 1−θ_app_long로 병합을 위한 절단 임계값을 자동으로 설정한다.
중복 마스크를 해결하기 위해 비최대 억제(NMS)에 새로운 IoM(최소에 대한 교차) 지표를 도입한다.

실험 결과

연구 질문

RQ1지상 진술 없이도 외관 특징의 자기지도 학습이 MOTS 성능 향상에 기여할 수 있는가?
RQ2MOTS에서 외관 인코더 재학습을 위한 신뢰할 수 있는 의사 레이블을 어떻게 구성할 수 있는가?
RQ3MOTS에서 단기 트랙렛 병합을 위한 효과적인 데이터 기반 임계값 설정 방법은 무엇인가?
RQ4특징 분포의 통계 분석이 MOTS 정교화에서 히ュ리스틱 임계값 선택을 대체할 수 있는가?

주요 결과

ReMOTS는 CVPR 2020 MOTS 챌린지에서 69.9 sMOTSA 점수로 1위를 기록하였으며, IDF1 측정치에서도 다른 방법들을 압도적으로 앞섰다.
다양한 시퀀스에서 높은 성능을 기록하였으며, 개별 테스트 시퀀스에서 점수 범위는 68.5에서 87.2까지 다양했다.
NMS에 IoM를 사용함으로써 마스크 겹침 문제를 줄였고, 정교화 이전의 마스크 품질을 향상시켰다.
프레임 내 및 트랙렛 간 데이터를 활용한 자기지도 학습이 외관 특징의 구분 능력을 크게 향상시켰다.
코사인 유사도 히스토그램 분석을 통한 자동 임계값 설정 방법은 지상 진술이 없이도 효과적이었다.
특징 분포의 통계 분석이 단기 트랙렛의 강력하고 적응 가능한 병합을 가능하게 함을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.