QUICK REVIEW

[논문 리뷰] Self-supervised Learning for Video Correspondence Flow

Zihang Lai, Weidi Xie|arXiv (Cornell University)|2019. 05. 02.

Video Surveillance and Tracking Methods참고 문헌 52인용 수 56

한 줄 요약

본 논문은 RGB 비디오 임베딩을 픽셀 수준의 대응 흐름에 대해 자기지도 학습 프레임 재구성, 정보 병목, Restricted Attention, scheduled sampling, 순환 일치를 활용하여 학습하고, 미세 조정 없이 DAVIS-2017과 JHMDB에서 최첨단 성능을 달성한다.

ABSTRACT

The objective of this paper is self-supervised learning of feature embeddings that are suitable for matching correspondences along the videos, which we term correspondence flow. By leveraging the natural spatial-temporal coherence in videos, we propose to train a ``pointer'' that reconstructs a target frame by copying pixels from a reference frame. We make the following contributions: First, we introduce a simple information bottleneck that forces the model to learn robust features for correspondence matching, and prevent it from learning trivial solutions, \eg matching based on low-level colour information. Second, to tackle the challenges from tracker drifting, due to complex object deformations, illumination changes and occlusions, we propose to train a recursive model over long temporal windows with scheduled sampling and cycle consistency. Third, we achieve state-of-the-art performance on DAVIS 2017 video segmentation and JHMDB keypoint tracking tasks, outperforming all previous self-supervised learning approaches by a significant margin. Fourth, in order to shed light on the potential of self-supervised learning on the task of video correspondence flow, we probe the upper bound by training on additional data, \ie more diverse videos, further demonstrating significant improvements on video segmentation.

연구 동기 및 목표

수동 주석 없이 비디오에서 강건하고 픽셀 수준의 대응을 학습하도록 동기를 부여한다.
프레임 재구성을 통해 임베딩을 학습하기 위해 비디오의 시공간 일관성을 활용한다.
건축적 및 학습 전략을 통해 사소한 해법과 트래커 드리프트를 방지한다.
비디오 분할 및 키포인트 추적과 같은 다운스트림 작업에서 강력한 성능을 보여준다.
더 다양하고 라벨이 없는 비디오 데이터로 학습하여 성능의 상한을 탐색한다.

제안 방법

ResNet-18 기반 인코더를 사용하여 RGB 채널과 강도에 섭동을 주는 정보 병목을 가진 임베딩을 생성한다.
지역 탐색 창 내부에서 조밀한 대응을 계산하기 위해 restricted attention를 구현한다 ( disparity M ).
훈련/테스트 간 격차를 좁히기 위해 스케줄링 샘플링을 사용하여 짧은 시퀀스에 대해 재귀적이고 장기간의 모델을 학습한다.
전방-후방 순환 일치를 전파의 드리프트에 대한 규제로 적용한다.
프레임 재구성은 16 색 클래스( Lab 공간에서의 K-means)와 교차 엔트로피 손실을 갖는 색 양자화 분류 작업으로 형상화된다.
Kinetics에서 완전히 자기지도 학습으로 훈련하고 6 fps로 디코딩하며 RGB 입력 및 강건성을 촉진하기 위한 선택적 색상 드롭아웃을 사용한다.

실험 결과

연구 질문

RQ1라벨이 없는 데이터로도 자기지도 학습이 밀집 비디오 대응 흐름에 적합한 임베딩을 산출할 수 있는가?
RQ2정보 병목을 가진 프레임 재구성이 저수준 색상 신호에 의존하는 것을 방지하고 사소한 해법을 줄이는가?
RQ3스케줄링 샘플링과 순환 일치가 긴 시퀀스에서 트래커 드리프트를 완화하는가?
RQ4제한된 어텐션이 성능과 고해상도 입력으로의 확장성에 어떤 영향을 미치는가?
RQ5더 다양하고 라벨이 없는 비디오에서 학습할 때 성능의 상한은 무엇인가?

주요 결과

Method	지도 여부	데이터셋	J&F (평균)	J (평균)	J (재현율)	F (평균)	F (재현율)
Ours (Full Model ResNet-18)	✗	Kinetics	49.5	47.7	53.2	51.3	56.5
Ours (Full Model ResNet-18)	✗	OxUvA	50.3	48.4	53.2	52.2	56.0
ImageNet (ResNet-50)	✓	ImageNet	49.7	50.3	-	49.0	-
SiamMask	✓	YouTube-VOS	53.1	51.1	60.5	55.0	64.3
OSVOS	✓	DAVIS	60.3	56.6	63.8	63.9	73.8
CycleTime (ResNet-50)	✗	VLOG	40.7	41.9	40.9	39.4	33.6

DAVIS-2017 비디오 분할에서 자체 감독 방법 중 최첨단을 달성하고(J&F 평균 49.5/47.7? 표 참조) JHMDB 키포인트 추적(PCK 지표)에서도 최첨단.
컬러 드롭아웃과 RGB 입력은 훈련-테스트 차이를 해소하고 DAVIS-2017 지표를 현저하게 향상시키는 데 결정적이다.
Restricted attention은 메모리를 약 1.4G GPU 사용량으로 감소시키고, 약간의 하락을 야기하긴 하지만 전체 어텐션과 비교하여도 경쟁력 있는 성능을 낸다.
스케줄링 샘플링은 강건성을 크게 향상시키고 드리프트를 감소시키며, 특히 조도 변화에서 그렇다.
전방-후방 순환 일치는 장기 시퀀스 전파를 크게 개선하고 드리프트를 줄이며 J&F 점수를 향상시킨다.
상한선 실험은 추가적인 라벨이 없는 비디오 데이터가 성능을 더욱 향상시키고 몇몇 클래스에서 일부 감독 기반 기준선을 근접하거나 능가한다는 것을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.