Skip to main content
QUICK REVIEW

[논문 리뷰] InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Yi Wang, Kunchang Li|arXiv (Cornell University)|2022. 12. 06.
Human Pose and Action Recognition인용 수 91
한 줄 요약

InternVideo는 마스킹된 비디오 모델링과 비디오-언어 대비 학습을 통합해 일반 비디오 파운데이션 모델을 구축하고, 39개 데이터셋과 다양한 비디오 태스크에서 최첨단 성능을 달성합니다.

ABSTRACT

The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .

연구 동기 및 목표

  • 이미지 중심의 사전 학습을 넘어 일반 비디오 파운데이션 모델의 필요성에 동기를 부여한다.
  • 마스킹된 비디오 모델링과 다중 모달 대비 학습을 결합한 unified 표현 학습 패러다임을 개발한다.
  • 생성적 특징과 판별적 학습 특징을 융합하기 위한 효율적인 교차 표현 상호작용을 가능하게 한다.
  • 액션 이해, 비디오-언어 정렬, 열린 세계 응용에 걸친 광범위한 벤치마크에서 접근 방식을 검증한다.

제안 방법

  • VideoMAE 스타일의 마스킹된 비디오 모델링을 사용하여 시공간 표현을 학습한다(높은 마스킹 비율).
  • 캡션 디코더를 포함한 CLIP 유사 프레임워크를 기반으로 한 비디오-언어 대비 학습을 사용하여 교차 모 modalities 융합을 수행한다.
  • 후처리로 감독된 액션 인식(Kinetics-710)을 통해 다운스트림 성능을 향상시킨다.
  • 사전 학습을 각각 수행한 후 마스크된 비디오와 다중 모달 표현을 정렬하고 융합하기 위해 교차 모델 주의(CMA)를 도입한다.
  • CMA 동안 백본은 안정성을 유지하기 위해 고정된 상태를 유지하면서 공동 표현 학습을 수행한다.

실험 결과

연구 질문

  • RQ1마스킹된 비디오 모델링과 다중 모달 대비 학습에서 학습된 unified 표현이 다양한 비디오 태스크 전반에 일반화될 수 있는가?
  • RQ2교차 모델 주의가 공동 엔드 투 엔드 학습 없이도 생성적 비디오 특징과 판별적 특징을 효과적으로 융합할 수 있는가?
  • RQ3대규모 데이터셋과 모델 규모로 확장될 때 구성요소(VideoMAE, UniFormerV2 기반 다중 모달 인코더)의 확장성은 어떠한가?
  • RQ4감독된 사전학습 후 다운스트림 성능이 액션 이해와 비디오-언어 태스크에 어떤 영향을 미치는가?
  • RQ5인터뉴비디오가 오픈 월드 및 제로샷 설정에서 태스크 특화 모델과 비교해 어떤 성능을 보이는가?

주요 결과

DatasetModelK400K600K700
Kinetics-400InternVideo-D90.991.183.8
Kinetics-400InternVideo-T91.191.384.0
  • 39개 데이터셋 전반에서 액션 이해, 비디오-언어 정렬, 오픈 월드 태스크에 대해 최첨단 결과를 달성한다.
  • Kinetics-400에서 InternVideo-D의 탑-1 정확도는 90.9%, InternVideo-T는 91.1%이며(K400에 대한 기본 대비 +1.2 증가).
  • Something-Something V1/V2, ActivityNet, HACS, HMDB51에서 이전 SOTA 방식 대비 상당한 개선을 보여준다(예: SthSthV1: 70.0%, SthSthV2: 77.2%, ActivityNet: 94.3%, HACS: 95.5%, HMDB51: 89.3%).
  • 시간적 및 시공간 로컬라이제이션 태스크(THUMOS-14, ActivityNet-v1.3, HACS, FineAction)에서 InternVideo가 SOTA급 mAP 향상을 제공하는 경쟁력을 보여준다(예: THUMOS-14 71.58, ActionFormer 머리로).
  • 비디오-언어 태스크에서 강력한 검색 및 QA 성능을 보이며 MSR-VTT/Videos-to-Text 검색 및 Video QA에서 베이스라인 대비 향상을 보인다; 제로샷 및 오픈 세트 전이도 견고하다.
  • 교차 모델 상호작용(CMA)은 MAE와 다중 모달 특징의 효과적 융합을 가능하게 하면서 백본은 고정된 상태를 유지해 계산적으로 실현 가능한 학습 레시피를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.