[논문 리뷰] Learning Video Representations using Contrastive Bidirectional Transformer
본 논문은 Contrastive Bidirectional Transformer(CBT)를 통해 실수값 프레임 특징 시퀀스에서 자기지도 비디오 표현을 학습하고, ASR 텍스트의 교차 모달 학습을 선택적으로 활용하여 영상 분류, 캡션 생성, 세분화에서 최신 성능을 달성한다.
This paper proposes a self-supervised learning approach for video features that results in significantly improved performance on downstream tasks (such as video classification, captioning and segmentation) compared to existing methods. Our method extends the BERT model for text sequences to the case of sequences of real-valued feature vectors, by replacing the softmax loss with noise contrastive estimation (NCE). We also show how to learn representations from sequences of visual features and sequences of words derived from ASR (automatic speech recognition), and show that such cross-modal training (when possible) helps even more.
연구 동기 및 목표
- 레이블 없이도 분류, 캡션 생성, 세분화와 같은 다운스트림 작업을 위한 강건한 영상 표현 학습의 필요성을 제시한다.
- 대비손실(contrastive loss)을 사용하여 실수값 영상 특징의 시퀀스에 대해 BERT 스타일의 양방향 맥락 모델링을 적용한다.
- ASR로부터 얻은 토큰을 공동으로 활용하여 비디오 특징과의 상호정보량을 최대화하는 교차 모달 학습을 탐구한다.
- 표준 벤치마크(예: UCF101, HMDB51)에서 이전 자기지도 방법들에 비해 개선을 입증하고 더 긴 시간적 표현을 다룬다.
제안 방법
- 노이즈 대조 추정(NCE) 목표를 사용하여 실수값 비디오 특징 시퀀스에 대해 BERT 스타일의 사전학습을 확장한다.
- S3D CNN으로 짧은 프레임 창을 인코딩하여 프레임 수준 특징을 생성한 다음, 맥락 예측기로서 양방향 트랜스포머를 적용한다.
- 맥스드 프레임 특징의 맥락에 따른 예측 가능성을 최대화하기 위해 NCE를 사용하여 양방향 시간 표현을 촉진한다.
- 비디오 특징과 선택적 ASR 텍스트 토큰 간의 상호정보량을 최대화하기 위한 교차 모달 트랜스포머를 도입하고, 프레임 단위 정합이 아닌 시퀀스 수준에서 집계한다.
- 세 손실을 하나의 통합 목적함수로 결합: L_cbt = w_bert L_bert (사전학습, 동결) + w_visual L_visual + w_cross L_cross; 실제로는 w_bert를 0으로 고정하고, w_visual은 1이며, w_cross는 교차 모달 학습 여부에 따라 1 또는 0이다.
- Kinetics와 HowTo100M에서 Visual-only CBT 사전학습을 평가하고, 이후 행동 인식, 캡션 생성, 세분화와 같은 다운스트림 작업에 선형 탐색 또는 미세조정을 수행한다.
실험 결과
연구 질문
- RQ1대비 목표를 사용하여 실수값 비디오 특징의 시퀀스에 대해 BERT 스타일의 양방향 트랜스포머를 얼마나 효과적으로 학습시킬 수 있는가?
- RQ2ASR로부터의 교차 모달 신호를 도입하면 학습된 비디오 표현이 개선되는가, 특히 비디오와 텍스트 간 정합이 불완전한 경우에?
- RQ3자기지도 CBT 사전학습이 단기 행동 인식과 더 긴 시간적 표현에 어떤 영향을 미치는가?
- RQ4학습된 표현이 다운스트림 작업인 영상 분류, 세분화, 캡션 생성에 대해 이전의 자기지도 방법들과 비교하여 어떤 전이를 보이는가?
주요 결과
| 방법 | UCF101 (미세조정) | HMDB51 (미세조정) | UCF101 (고정) | HMDB51 (고정) |
|---|---|---|---|---|
| Random | 63.3 | 29.7 | 25.7 | 11.5 |
| Shuffle&Learn* | 68.7 | 35.8 | 26.5 | 12.6 |
| 3DRotNet* | 75.3 | 40.0 | 47.7 | 24.8 |
| CBT (ours) | 79.5 | 44.5 | 54.0 | 29.5 |
- CBT 기반 자기지도 학습은 사전 학습된 모델을 미세조정했을 때 UCF101과 HMDB51에서 이전 방법들과 비교하여 행동 인식 성능을 상당히 향상시킨다(예: 동일 베이스라인에서 UCF101 79.5 대 75.3, HMDB51 44.5 대 40.0).
- ASR 신호를 활용한 교차 모달 사전학습은 작은 데이터셋에서 행동 예측 태스크에 추가 이점을 주고, HowTo100M에서 학습된 시간적 표현을 향상시킨다.
- CBT는 실수값 프레임 특징 시퀀스에 대해 트랜스포머 기반 맥락 모델을 활용하여 벡터 양자화를 피하고 미세한 정보를 잃지 않아 이전의 자기지도 방법들보다 우수하다.
- CBT를 통해 학습된 시간적 표현은 더 긴 시퀀스로 확장되며, 비디오 길이가 늘어남에 따라 평균 풀링이나 LSTM 같은 베이스라인에 비해 우수한 성능을 보인다.
- 캡션 생성 및 세분화에서 CBT 기반 표현은 BLEU-4, METEOR, ROUGE-L, CIDEr 등의 언어 및 프레임 라벨링 지표를 높이고 COIN 및 YouCook2 데이터셋에서 경쟁력 있는 프레임 태깅 성능을 보인다.
- VideoBERT 및 기타 방법에 비해 CBT는 이산 시각 토큰을 필요로 하지 않으면서도 뛰어난 성과를 달성하며, 직접 실수값 특징 모델링과 교차 모달 상호정보의 이점을 누린다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.