[논문 리뷰] Learning Spatiotemporal Features via Video and Text Pair Discrimination
이 논문은 노이즈-대비 추정과 커리큘럼 학습을 사용하여 노이즈가 있는 비디오-텍스트 쌍으로부터 비디오 시공간 표현을 학습하는 교차 모달 쌍 판별(CPD) 프레임워크를 제시하며, 약지도 학습 및 전이 성능에서 경쟁력을 갖춘 성능을 달성합니다.
Current video representations heavily rely on learning from manually annotated video datasets which are time-consuming and expensive to acquire. We observe videos are naturally accompanied by abundant text information such as YouTube titles and Instagram captions. In this paper, we leverage this visual-textual connection to learn spatiotemporal features in an efficient weakly-supervised manner. We present a general cross-modal pair discrimination (CPD) framework to capture this correlation between a video and its associated text. Specifically, we adopt noise-contrastive estimation to tackle the computational issue imposed by the huge amount of pair instance classes and design a practical curriculum learning strategy. We train our CPD models on both standard video dataset (Kinetics-210k) and uncurated web video dataset (Instagram-300k) to demonstrate its effectiveness. Without further fine-tuning, the learnt models obtain competitive results for action classification on Kinetics under the linear classification protocol. Moreover, our visual model provides an effective initialization to fine-tune on downstream tasks, which yields a remarkable performance gain for action recognition on UCF101 and HMDB51, compared with the existing state-of-the-art self-supervised training methods. In addition, our CPD model yields a new state of the art for zero-shot action recognition on UCF101 by directly utilizing the learnt visual-textual embeddings. The code will be made available at https://github.com/MCG-NJU/CPD-Video.
연구 동기 및 목표
- 비디오에 수반되는 풍부한 텍스트를 활용하여 수동 주석 없이 비디오 표현을 학습하는 동기를 부여합니다.
- 비디오와 텍스트를 공유 임베딩 공간에서 정렬하는 교차 모달 프레임워크를 제안하여 특징 학습을 감독합니다.
- 노이즈가 많은 웹 기반 텍스트의 품질과 규모를 다루기 위해 노이즈-대비 추정과 커리큘럼 학습을 적용합니다.
- 웹과 표준 데이터셋에서의 CPD 프리-학습이 액션 인식 태스크에서 선형 및 전이 성능에 경쟁력을 제공함을 보여줍니다.
제안 방법
- 비디오와 텍스트를 공통의 256-차원 공간으로 임베딩하고 단위 노름 제약을 적용합니다.
- 일치하는 비디오-텍스트 쌍과 음수 샘플 간의 f^t^T f^v 를 최대화하는 교차 모달 쌍 판별 Objective를 사용하여 교차 모달 상관 모델링을 강화합니다.
- 공동 분포 모델링 대신 조건 분포 p(i_t|v) 와 p(i_v|t) 를 사용하여 시각-텍스트 관계를 더 잘 포착합니다.
- 대규모 클래스 목적을 근사하기 위해 메모리 뱅크를 이용한 노이즈-대비 추정으로 최적화하고, 먼저 언어 모델을 고정한 뒤 네트워크를 공동 조정하는 커리큘럼 학습 전략을 적용합니다.
- 비디오 특징에 3D ResNet34/50 계열의 3D CNN 백본과 텍스트 특징에 Word2Vec 또는 DistilBERT를 활용하고 이를 공유 임베딩 공간으로 투영합니다.
실험 결과
연구 질문
- RQ1노이즈가 있는 웹 비디오-텍스트 쌍으로부터 약지도 비디오 표현을 효과적으로 학습할 수 있는가?
- RQ2교차 모달 쌍 판별이 비디오 표현 학습을 위한 다른 교차 모달 또는 순수 시각 자체 지도 objectives 보다 우수한가?
- RQ3커리큘럼 학습과 텍스트 인코더가 시공간 특징의 품질에 어떤 영향을 주는가?
- RQ4CPD 프리-훈련이 소형-중형 데이터셋에서 얼마나 다운스트림 액션 인식 태스크로 전이될 수 있는가?
- RQ5CPD 접근법은 데이터 소스 간의 텍스트 정보 노이즈(예: Kinetics 제목 대 Instagram 자막)에도 강인한가?
주요 결과
| Method | Supervision | Backbone | Pre-trained Dataset | frozen | UCF101 | HMDB51 |
|---|---|---|---|---|---|---|
| Random Init. | - | 3D ResNet18 | - | x | 42.4 | 17.1 |
| Kinetics Pre-trained (Action label) | Action label | 3D ResNet50 | Kinetics | x | 89.3 | 61.0 |
| Supervised SOTA (Xie et al., 2018) | Action label | S3D | Kinetics | x | 96.8 | 75.9 |
| Shuffle & Learn (Misra et al., 2016) | Order verification | CaffeNet | UCF101/HMDB51 | x | 50.2 | 18.1 |
| OPN (Lee et al., 2017) | Sequence order | VGGNet | UCF101/HMDB51 | x | 59.8 | 23.8 |
| CMC (Tian et al., 2019) | Optical flow | CaffeNet | UCF101 | x | 55.3 | - |
| O3N (Fernando et al., 2017) | Odd-one-out | AlexNet | UCF101 | x | 60.3 | 32.5 |
| MASN (Wang et al., 2019a) | Motion | C3D | Kinetics-400 | x | 61.2 | 33.4 |
| COP (Xu et al., 2019b) | Clip order | 3D ResNet10 | UCF101 | x | 64.9 | 29.5 |
| DPC (Han et al., 2019) | Prediction | 3D ResNet34 | Kinetics-400 | x | 75.7 | 35.7 |
| CBT (Sun et al., 2019a) | Audio(Text)/Context | S3D | Kinetics-600 | x | 79.5 | 44.6 |
| AVTS (Korbar et al., 2018) | Audio | I3D | Kinetics-600 | x | 83.7 | 53.0 |
| AVTS (Korbar et al., 2018) | Audio | MC3 | Audioset-1.8M | x | 89.0 | 61.6 |
| XDC (Alwassel et al., 2019) | Audio | R(2+1)D | Kinetics-400 | x | 84.2 | 47.1 |
| XDC (Alwassel et al., 2019) | Audio | R(2+1)D | IG-65M | x | 91.5 | 63.1 |
| MIL-NCE (Miech et al., 2020) | Audio(Text) | S3D | HT-100M | ✓ | 82.7 | 53.1 |
| MIL-NCE (Miech et al., 2020) | Audio(Text) | S3D | HT-100M | x | 91.3 | 61.0 |
| TWS (Stroud et al., 2020) | Text (Title, Des, Tag etc.) | S3D-G | WVT-70M | x | 90.3 | 65.3 |
| CPD (Ours) | Title | 3D ResNet50 | Kinetics-210k | x | 90.5 | 63.6 |
| CPD (Ours) | Caption | 3D ResNet50 | Instagram-300k | ✓ | 83.7 | 54.7 |
| CPD (Ours) | Caption | 3D ResNet50 | Instagram-300k | x | 92.8 | 63.8 |
- 교차 모달 쌍 판별을 활용한 CPD가 Kinetics에서 선형 평가 하에 경쟁력 있는 액션 분류 성능을 달성합니다.
- Kinetics-210k 또는 Instagram-300k에서 프리-학습된 CPD가 UCF101 및 HMDB51에서의 미세 조정에 강력한 초기화를 제공하며, 여러 자체 지도 baselines를 능가합니다.
- 교차 모달 쌍 판별은 순위 손실 baselines 및 다중 모달 인스턴스 판별보다 비디오 표현 학습에 유용한 특성을 더 잘 학습합니다.
- 커리큘럼 학습(먼저 텍스트 모델 고정, 그다음 공동 미세 조정)은 직접 미세 조정보다 개선을 보이며 텍스트 노이즈를 더 잘 다룹니다.
- 상대적으로 작은 데이터셋(0.3M 비디오)에서의 CPD 프리-학습은 훨씬 많은 데이터를 사용하는 최신 방법들과 견줄 만한 성능을 보여, 제한된 컴퓨팅 환경에서의 실용성을 강조합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.