[논문 리뷰] VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
VideoMAE는 tube masking을 사용하는 마스크된 자동인코더가 비디오 트랜스포머를 위한 데이터 효율적 자기지도 사전 학습을 가능하게 하며, 추가 데이터 없이도 소규모 데이터셋에서 강력한 성능을 달성한다.
Pre-training video transformers on extra large-scale datasets is generally required to achieve premier performance on relatively small datasets. In this paper, we show that video masked autoencoders (VideoMAE) are data-efficient learners for self-supervised video pre-training (SSVP). We are inspired by the recent ImageMAE and propose customized video tube masking with an extremely high ratio. This simple design makes video reconstruction a more challenging self-supervision task, thus encouraging extracting more effective video representations during this pre-training process. We obtain three important findings on SSVP: (1) An extremely high proportion of masking ratio (i.e., 90% to 95%) still yields favorable performance of VideoMAE. The temporally redundant video content enables a higher masking ratio than that of images. (2) VideoMAE achieves impressive results on very small datasets (i.e., around 3k-4k videos) without using any extra data. (3) VideoMAE shows that data quality is more important than data quantity for SSVP. Domain shift between pre-training and target datasets is an important issue. Notably, our VideoMAE with the vanilla ViT can achieve 87.4% on Kinetics-400, 75.4% on Something-Something V2, 91.3% on UCF101, and 62.6% on HMDB51, without using any extra data. Code is available at https://github.com/MCG-NJU/VideoMAE.
연구 동기 및 목표
- 바닐라 ViT 백본을 사용하여 자기지도 비디오 사전 학습(SSVP)에 대해 마스크된 자동인코딩이 효과적일 수 있음을 입증한다.
- 정보 누출을 피하고 고수준의 시공간 학습을 촉진하기 위해 비디오 데이터에 적합한 마스킹 전략(tube masking)과 재구성 과제를 설계한다.
- VideoMAE가 외부 데이터 없이 상대적으로 작은 비디오 데이터셋에서 학습할 수 있음을 보여주고, 대조적/자기지도 기반 baselines와 비교한다.
- 마스킹 비율, 사전 학습 데이터의 질/양, 도메인 시프트가 다운스트림 전이 성능에 미치는 영향을 분석한다.
제안 방법
- ImageMAE의 마스크드 자동인코더 패러다임을 차용하되 3D 큐브(공간-시간) 토큰화와 매우 높은 마스킹 비율(90%–95%)로 비디오에 맞게 조정한다.
- 시계열 다운샘플링과 큐브 임베딩을 사용하여 시공간 차원을 감소시킨다.
- 프레임 간에 동일한 마스킹 맵을 공유하는 튜브 마스킹을 구현하여 시간적 상관관계에서의 정보 누출을 완화한다.
- 더 깊은 디코더를 갖는 비대칭 인코더-디코더 아키텍처를 사용하여 마스킹된 비디오 토큰의 재구성을 향상시킨다.
- 공간-시간 ViT 백본으로 결합하여 마스킹된 토큰의 픽셀 값을 MSE 손실로 재구성하는 방식으로 학습한다.
- SSVP 벤치마크 전반에 걸쳐 마스킹 전략, 재구성 대상, 사전 학습 데이터 및 백본에 대한 광범위한 ablations을 수행한다.
실험 결과
연구 질문
- RQ1상대적으로 작은 데이터셋에서 자가지도 사전학습으로 VideoMAE가 비디오의 유용한 시공간 표현을 학습할 수 있는가?
- RQ2다른 전략에 비해 90–95%의 극히 높은 마스킹 비율과 튜브 마스킹이 데이터 효율성과 성능을 개선하는가?
- RQ3사전 학습 데이터의 질, 도메인 시프트 및 백본 선택이 다운스트림 비디오 작업으로의 전이에 어떤 영향을 미치는가?
주요 결과
- VideoMAE는 외부 데이터 없이 작은 데이터셋에서 강력한 결과를 달성한다(예: Kinetics-400에서 87.4%, Something-Something V2에서 75.4%, UCF101에서 91.3%, HMDB51에서 62.6%를 vanilla ViT 백본으로).
- 극히 높은 마스킹 비율(90–95%)은 시간적 중복성으로 인해 비디오 마스킹 모델링에 유리하다.
- 튜브 마스킹은 시간적 상관관계로부터의 정보 누출을 방지하고 고수준의 시공간 구조 학습을 촉진한다.
- 3.5k 비디오로 학습된 VideoMAE도 여전히 효과적일 수 있어 SSVP의 데이터 효율성을 강조한다.
- 타깃 비디오 데이터로 외부 데이터 없이 사전 학습하는 것이 MoCo v3 및 제로백그라운드 학습보다 여러 벤치마크에서 더 나을 수 있으며 도메인 시프트가 전이에 영향을 준다.
- AVA로의 전이는 Kinetics-400에서 학습된 ViT-B로 26.7 mAP를 달성하며, 더 큰 백본/데이터로 확장하면 더 높은 mAP에 도달한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.