QUICK REVIEW

[논문 리뷰] Learning Spatiotemporal Features via Video and Text Pair Discrimination

Tianhao Li, Limin Wang|arXiv (Cornell University)|2020. 01. 16.

Human Pose and Action Recognition참고 문헌 74인용 수 33

한 줄 요약

이 논문은 노이즈-대비 추정과 커리큘럼 학습을 사용하여 노이즈가 있는 비디오-텍스트 쌍으로부터 비디오 시공간 표현을 학습하는 교차 모달 쌍 판별(CPD) 프레임워크를 제시하며, 약지도 학습 및 전이 성능에서 경쟁력을 갖춘 성능을 달성합니다.

ABSTRACT

Current video representations heavily rely on learning from manually annotated video datasets which are time-consuming and expensive to acquire. We observe videos are naturally accompanied by abundant text information such as YouTube titles and Instagram captions. In this paper, we leverage this visual-textual connection to learn spatiotemporal features in an efficient weakly-supervised manner. We present a general cross-modal pair discrimination (CPD) framework to capture this correlation between a video and its associated text. Specifically, we adopt noise-contrastive estimation to tackle the computational issue imposed by the huge amount of pair instance classes and design a practical curriculum learning strategy. We train our CPD models on both standard video dataset (Kinetics-210k) and uncurated web video dataset (Instagram-300k) to demonstrate its effectiveness. Without further fine-tuning, the learnt models obtain competitive results for action classification on Kinetics under the linear classification protocol. Moreover, our visual model provides an effective initialization to fine-tune on downstream tasks, which yields a remarkable performance gain for action recognition on UCF101 and HMDB51, compared with the existing state-of-the-art self-supervised training methods. In addition, our CPD model yields a new state of the art for zero-shot action recognition on UCF101 by directly utilizing the learnt visual-textual embeddings. The code will be made available at https://github.com/MCG-NJU/CPD-Video.

연구 동기 및 목표

비디오에 수반되는 풍부한 텍스트를 활용하여 수동 주석 없이 비디오 표현을 학습하는 동기를 부여합니다.
비디오와 텍스트를 공유 임베딩 공간에서 정렬하는 교차 모달 프레임워크를 제안하여 특징 학습을 감독합니다.
노이즈가 많은 웹 기반 텍스트의 품질과 규모를 다루기 위해 노이즈-대비 추정과 커리큘럼 학습을 적용합니다.
웹과 표준 데이터셋에서의 CPD 프리-학습이 액션 인식 태스크에서 선형 및 전이 성능에 경쟁력을 제공함을 보여줍니다.

제안 방법

비디오와 텍스트를 공통의 256-차원 공간으로 임베딩하고 단위 노름 제약을 적용합니다.
일치하는 비디오-텍스트 쌍과 음수 샘플 간의 f^t^T f^v 를 최대화하는 교차 모달 쌍 판별 Objective를 사용하여 교차 모달 상관 모델링을 강화합니다.
공동 분포 모델링 대신 조건 분포 p(i_t|v) 와 p(i_v|t) 를 사용하여 시각-텍스트 관계를 더 잘 포착합니다.
대규모 클래스 목적을 근사하기 위해 메모리 뱅크를 이용한 노이즈-대비 추정으로 최적화하고, 먼저 언어 모델을 고정한 뒤 네트워크를 공동 조정하는 커리큘럼 학습 전략을 적용합니다.
비디오 특징에 3D ResNet34/50 계열의 3D CNN 백본과 텍스트 특징에 Word2Vec 또는 DistilBERT를 활용하고 이를 공유 임베딩 공간으로 투영합니다.

실험 결과

연구 질문

RQ1노이즈가 있는 웹 비디오-텍스트 쌍으로부터 약지도 비디오 표현을 효과적으로 학습할 수 있는가?
RQ2교차 모달 쌍 판별이 비디오 표현 학습을 위한 다른 교차 모달 또는 순수 시각 자체 지도 objectives 보다 우수한가?
RQ3커리큘럼 학습과 텍스트 인코더가 시공간 특징의 품질에 어떤 영향을 주는가?
RQ4CPD 프리-훈련이 소형-중형 데이터셋에서 얼마나 다운스트림 액션 인식 태스크로 전이될 수 있는가?
RQ5CPD 접근법은 데이터 소스 간의 텍스트 정보 노이즈(예: Kinetics 제목 대 Instagram 자막)에도 강인한가?

주요 결과

Method	Supervision	Backbone	Pre-trained Dataset	frozen	UCF101	HMDB51
Random Init.	-	3D ResNet18	-	x	42.4	17.1
Kinetics Pre-trained (Action label)	Action label	3D ResNet50	Kinetics	x	89.3	61.0
Supervised SOTA (Xie et al., 2018)	Action label	S3D	Kinetics	x	96.8	75.9
Shuffle & Learn (Misra et al., 2016)	Order verification	CaffeNet	UCF101/HMDB51	x	50.2	18.1
OPN (Lee et al., 2017)	Sequence order	VGGNet	UCF101/HMDB51	x	59.8	23.8
CMC (Tian et al., 2019)	Optical flow	CaffeNet	UCF101	x	55.3	-
O3N (Fernando et al., 2017)	Odd-one-out	AlexNet	UCF101	x	60.3	32.5
MASN (Wang et al., 2019a)	Motion	C3D	Kinetics-400	x	61.2	33.4
COP (Xu et al., 2019b)	Clip order	3D ResNet10	UCF101	x	64.9	29.5
DPC (Han et al., 2019)	Prediction	3D ResNet34	Kinetics-400	x	75.7	35.7
CBT (Sun et al., 2019a)	Audio(Text)/Context	S3D	Kinetics-600	x	79.5	44.6
AVTS (Korbar et al., 2018)	Audio	I3D	Kinetics-600	x	83.7	53.0
AVTS (Korbar et al., 2018)	Audio	MC3	Audioset-1.8M	x	89.0	61.6
XDC (Alwassel et al., 2019)	Audio	R(2+1)D	Kinetics-400	x	84.2	47.1
XDC (Alwassel et al., 2019)	Audio	R(2+1)D	IG-65M	x	91.5	63.1
MIL-NCE (Miech et al., 2020)	Audio(Text)	S3D	HT-100M	✓	82.7	53.1
MIL-NCE (Miech et al., 2020)	Audio(Text)	S3D	HT-100M	x	91.3	61.0
TWS (Stroud et al., 2020)	Text (Title, Des, Tag etc.)	S3D-G	WVT-70M	x	90.3	65.3
CPD (Ours)	Title	3D ResNet50	Kinetics-210k	x	90.5	63.6
CPD (Ours)	Caption	3D ResNet50	Instagram-300k	✓	83.7	54.7
CPD (Ours)	Caption	3D ResNet50	Instagram-300k	x	92.8	63.8

교차 모달 쌍 판별을 활용한 CPD가 Kinetics에서 선형 평가 하에 경쟁력 있는 액션 분류 성능을 달성합니다.
Kinetics-210k 또는 Instagram-300k에서 프리-학습된 CPD가 UCF101 및 HMDB51에서의 미세 조정에 강력한 초기화를 제공하며, 여러 자체 지도 baselines를 능가합니다.
교차 모달 쌍 판별은 순위 손실 baselines 및 다중 모달 인스턴스 판별보다 비디오 표현 학습에 유용한 특성을 더 잘 학습합니다.
커리큘럼 학습(먼저 텍스트 모델 고정, 그다음 공동 미세 조정)은 직접 미세 조정보다 개선을 보이며 텍스트 노이즈를 더 잘 다룹니다.
상대적으로 작은 데이터셋(0.3M 비디오)에서의 CPD 프리-학습은 훨씬 많은 데이터를 사용하는 최신 방법들과 견줄 만한 성능을 보여, 제한된 컴퓨팅 환경에서의 실용성을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.