Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Spatiotemporal Features via Video and Text Pair Discrimination

Tianhao Li, Limin Wang|arXiv (Cornell University)|2020. 01. 16.
Human Pose and Action Recognition참고 문헌 74인용 수 33
한 줄 요약

이 논문은 노이즈-대비 추정과 커리큘럼 학습을 사용하여 노이즈가 있는 비디오-텍스트 쌍으로부터 비디오 시공간 표현을 학습하는 교차 모달 쌍 판별(CPD) 프레임워크를 제시하며, 약지도 학습 및 전이 성능에서 경쟁력을 갖춘 성능을 달성합니다.

ABSTRACT

Current video representations heavily rely on learning from manually annotated video datasets which are time-consuming and expensive to acquire. We observe videos are naturally accompanied by abundant text information such as YouTube titles and Instagram captions. In this paper, we leverage this visual-textual connection to learn spatiotemporal features in an efficient weakly-supervised manner. We present a general cross-modal pair discrimination (CPD) framework to capture this correlation between a video and its associated text. Specifically, we adopt noise-contrastive estimation to tackle the computational issue imposed by the huge amount of pair instance classes and design a practical curriculum learning strategy. We train our CPD models on both standard video dataset (Kinetics-210k) and uncurated web video dataset (Instagram-300k) to demonstrate its effectiveness. Without further fine-tuning, the learnt models obtain competitive results for action classification on Kinetics under the linear classification protocol. Moreover, our visual model provides an effective initialization to fine-tune on downstream tasks, which yields a remarkable performance gain for action recognition on UCF101 and HMDB51, compared with the existing state-of-the-art self-supervised training methods. In addition, our CPD model yields a new state of the art for zero-shot action recognition on UCF101 by directly utilizing the learnt visual-textual embeddings. The code will be made available at https://github.com/MCG-NJU/CPD-Video.

연구 동기 및 목표

  • 비디오에 수반되는 풍부한 텍스트를 활용하여 수동 주석 없이 비디오 표현을 학습하는 동기를 부여합니다.
  • 비디오와 텍스트를 공유 임베딩 공간에서 정렬하는 교차 모달 프레임워크를 제안하여 특징 학습을 감독합니다.
  • 노이즈가 많은 웹 기반 텍스트의 품질과 규모를 다루기 위해 노이즈-대비 추정과 커리큘럼 학습을 적용합니다.
  • 웹과 표준 데이터셋에서의 CPD 프리-학습이 액션 인식 태스크에서 선형 및 전이 성능에 경쟁력을 제공함을 보여줍니다.

제안 방법

  • 비디오와 텍스트를 공통의 256-차원 공간으로 임베딩하고 단위 노름 제약을 적용합니다.
  • 일치하는 비디오-텍스트 쌍과 음수 샘플 간의 f^t^T f^v 를 최대화하는 교차 모달 쌍 판별 Objective를 사용하여 교차 모달 상관 모델링을 강화합니다.
  • 공동 분포 모델링 대신 조건 분포 p(i_t|v) 와 p(i_v|t) 를 사용하여 시각-텍스트 관계를 더 잘 포착합니다.
  • 대규모 클래스 목적을 근사하기 위해 메모리 뱅크를 이용한 노이즈-대비 추정으로 최적화하고, 먼저 언어 모델을 고정한 뒤 네트워크를 공동 조정하는 커리큘럼 학습 전략을 적용합니다.
  • 비디오 특징에 3D ResNet34/50 계열의 3D CNN 백본과 텍스트 특징에 Word2Vec 또는 DistilBERT를 활용하고 이를 공유 임베딩 공간으로 투영합니다.

실험 결과

연구 질문

  • RQ1노이즈가 있는 웹 비디오-텍스트 쌍으로부터 약지도 비디오 표현을 효과적으로 학습할 수 있는가?
  • RQ2교차 모달 쌍 판별이 비디오 표현 학습을 위한 다른 교차 모달 또는 순수 시각 자체 지도 objectives 보다 우수한가?
  • RQ3커리큘럼 학습과 텍스트 인코더가 시공간 특징의 품질에 어떤 영향을 주는가?
  • RQ4CPD 프리-훈련이 소형-중형 데이터셋에서 얼마나 다운스트림 액션 인식 태스크로 전이될 수 있는가?
  • RQ5CPD 접근법은 데이터 소스 간의 텍스트 정보 노이즈(예: Kinetics 제목 대 Instagram 자막)에도 강인한가?

주요 결과

MethodSupervisionBackbonePre-trained DatasetfrozenUCF101HMDB51
Random Init.-3D ResNet18-x42.417.1
Kinetics Pre-trained (Action label)Action label3D ResNet50Kineticsx89.361.0
Supervised SOTA (Xie et al., 2018)Action labelS3DKineticsx96.875.9
Shuffle & Learn (Misra et al., 2016)Order verificationCaffeNetUCF101/HMDB51x50.218.1
OPN (Lee et al., 2017)Sequence orderVGGNetUCF101/HMDB51x59.823.8
CMC (Tian et al., 2019)Optical flowCaffeNetUCF101x55.3-
O3N (Fernando et al., 2017)Odd-one-outAlexNetUCF101x60.332.5
MASN (Wang et al., 2019a)MotionC3DKinetics-400x61.233.4
COP (Xu et al., 2019b)Clip order3D ResNet10UCF101x64.929.5
DPC (Han et al., 2019)Prediction3D ResNet34Kinetics-400x75.735.7
CBT (Sun et al., 2019a)Audio(Text)/ContextS3DKinetics-600x79.544.6
AVTS (Korbar et al., 2018)AudioI3DKinetics-600x83.753.0
AVTS (Korbar et al., 2018)AudioMC3Audioset-1.8Mx89.061.6
XDC (Alwassel et al., 2019)AudioR(2+1)DKinetics-400x84.247.1
XDC (Alwassel et al., 2019)AudioR(2+1)DIG-65Mx91.563.1
MIL-NCE (Miech et al., 2020)Audio(Text)S3DHT-100M82.753.1
MIL-NCE (Miech et al., 2020)Audio(Text)S3DHT-100Mx91.361.0
TWS (Stroud et al., 2020)Text (Title, Des, Tag etc.)S3D-GWVT-70Mx90.365.3
CPD (Ours)Title3D ResNet50Kinetics-210kx90.563.6
CPD (Ours)Caption3D ResNet50Instagram-300k83.754.7
CPD (Ours)Caption3D ResNet50Instagram-300kx92.863.8
  • 교차 모달 쌍 판별을 활용한 CPD가 Kinetics에서 선형 평가 하에 경쟁력 있는 액션 분류 성능을 달성합니다.
  • Kinetics-210k 또는 Instagram-300k에서 프리-학습된 CPD가 UCF101 및 HMDB51에서의 미세 조정에 강력한 초기화를 제공하며, 여러 자체 지도 baselines를 능가합니다.
  • 교차 모달 쌍 판별은 순위 손실 baselines 및 다중 모달 인스턴스 판별보다 비디오 표현 학습에 유용한 특성을 더 잘 학습합니다.
  • 커리큘럼 학습(먼저 텍스트 모델 고정, 그다음 공동 미세 조정)은 직접 미세 조정보다 개선을 보이며 텍스트 노이즈를 더 잘 다룹니다.
  • 상대적으로 작은 데이터셋(0.3M 비디오)에서의 CPD 프리-학습은 훨씬 많은 데이터를 사용하는 최신 방법들과 견줄 만한 성능을 보여, 제한된 컴퓨팅 환경에서의 실용성을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.