QUICK REVIEW

[논문 리뷰] Watching the World Go By: Representation Learning from Unlabeled Videos

Daniel Gordon, Kiana Ehsani|arXiv (Cornell University)|2020. 03. 18.

Human Pose and Action Recognition참고 문헌 41인용 수 38

한 줄 요약

VINCE는 다중 프레임, 다중 페어 노이즈 대조 학습을 사용하여 라벨이 없는 비디오에서 이미지 표현을 학습하고, 여러 시간적 및 비시간적 작업에서 MoCo 및 ImageNet 감독 사전 학습보다 우수하게 수행한다.

ABSTRACT

Recent single image unsupervised representation learning techniques show remarkable success on a variety of tasks. The basic principle in these works is instance discrimination: learning to differentiate between two augmented versions of the same image and a large batch of unrelated images. Networks learn to ignore the augmentation noise and extract semantically meaningful representations. Prior work uses artificial data augmentation techniques such as cropping, and color jitter which can only affect the image in superficial ways and are not aligned with how objects actually change e.g. occlusion, deformation, viewpoint change. In this paper, we argue that videos offer this natural augmentation for free. Videos can provide entirely new views of objects, show deformation, and even connect semantically similar but visually distinct concepts. We propose Video Noise Contrastive Estimation, a method for using unlabeled video to learn strong, transferable single image representations. We demonstrate improvements over recent unsupervised single image techniques, as well as over fully supervised ImageNet pretraining, across a variety of temporal and non-temporal tasks. Code and the Random Related Video Views dataset are available at https://www.github.com/danielgordon10/vince

연구 동기 및 목표

단일 이미지 증강에 머무르지 않고 가려짐, 변형, 시점 변화와 같은 자연스러운 비디오 변화들을 활용하여 표현 학습의 방향성을 제시한다.
레이블이 없는 비디오를 사용해 전이 가능한 이미지 표현을 학습하는 자기지도 프레임워크를 제안한다.
비디오 기반 대조 학습이 최근의 비지도 이미지 방법과 감독 이미지넷 사전학습을 포함한 다양한 태스크에서 더 나은 성능을 낼 수 있음을 보인다.
랜덤 관계 비디오 뷰(R2V2)를 사전학습을 위한 확장 가능한 라벨이 없는 비디오 데이터세트로서의 효과를 입증한다.
학습된 표현을 이미지 분류, 장면 분류, 행동 인식, 객체 추적 등 다양한 태스크에서 평가한다.

제안 방법

VINCE(Video Noise Contrastive Estimation)을 도입하여 두 이미지가 같은 프레임이 아니라 같은 비디오에서 왔는지 여부를 학습한다.
같은 비디오에서 여러 프레임을 샘플링해 앵커–포지티브 관계를 형성하는 다중 프레임 양성 쌍을 사용한다.
메모리 은행과 모멘텀(MoCo)을 활용한 노이즈 대조 학습 확장을 통해 음수 샘플의 대규모 컬렉션과 안정적인 학습을 지원한다.
다중 프레임/다중 비디오의 양성들을 블록 대각 마스킹 전략(알고리즘 1)으로 묶어 배치당 양성 쌍 수를 늘리는 다중 페어 NCE를 적용한다.
Random Related Video Views(R2V2)를 구성: ~960k 프레임을 ~240k 개의 비정제 비디오에서 비디오당 네 프레임을 ~5초 간격으로 샘플링하고, ImageNet 질의와 연결된 YouTube CC 비디오를 사용해 시맨틱 다양성을 확보한다.
다운스트림 태스크에서 표현을 고정한 채 각 태스크별로 경량 분류기(선형, LSTM+선형)를 학습해 VINCE를 평가한다.

실험 결과

연구 질문

RQ1레이블이 없는 비디오가 단일 프레임 증강으로 달성 가능한 것보다 전이 가능한 이미지 표현을 이끌어내는 감독 신호를 제공할 수 있는가?
RQ2다중 프레임, 다중 페어 대조 학습이 학습 표현의 의미론적 일관성과 시간 이해를 향상시키는가?
RQ3VINCE가 MoCo 기반 방법 및 ImageNet 감독 사전학습에 비해 이미지, 장면, 행동, 추적 태스크에서 어떤 성능을 보이는가?
RQ4사전학습 데이터 소스(R2V2 vs YouTube8M vs Kinetics)가 다운스트림 태스크 성능에 미치는 영향은?

주요 결과

실험 과제	ImageNet	SUN Scene	Kinetics 400	OTB 2015 Precision	OTB 2015 Success
Same Frame	0.358	0.450	0.318	0.555	0.403
Multi-Frame	0.381	0.478	0.361	0.622	0.464
Multi-Frame Multi-Pair	0.400	0.495	0.362	0.629	0.465

VINCE는 MoCo 기반 베이스라인 및 감독형 ImageNet 사전학습 대비 여러 태스크에서 개선을 보인다.
ImageNet 및 SUN Scenes에서 VINCE는 MoCo-R2V2를 능가하며 장면 수준의 의미론으로의 일반화가 더 좋다.
Kinetics 400(액션 인식)에서 VINCE는 강력한 시간적 성능을 달성하며 시간 기반 베이스라인을 능가한다.
VINCE는 객체 추적(OTB 2015)에서 견고한 이득을 제공하며 다중 프레임, 다중 페어 설정을 사용할 때 특히 뚜렷한 개선이 있다.
다중 프레임 입력과 다중 페어 NCE를 사용하면 표준 단일 프레임 NCE 대비 성능이 크게 향상되며 더 의미론적 작업에서 더 큰 이득이 있다.
R2V2(이미지넷 질의 기반)가 ImageNet에서 우수하고, YouTube8M URL은 추적에서 더 넓은 이득을 제공하며 Kinetics URL은 운동 관련 성능을 강하게 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.