[논문 리뷰] InternVideo: General Video Foundation Models via Generative and Discriminative Learning
InternVideo는 마스킹된 비디오 모델링과 비디오-언어 대비 학습을 통합해 일반 비디오 파운데이션 모델을 구축하고, 39개 데이터셋과 다양한 비디오 태스크에서 최첨단 성능을 달성합니다.
The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
연구 동기 및 목표
- 이미지 중심의 사전 학습을 넘어 일반 비디오 파운데이션 모델의 필요성에 동기를 부여한다.
- 마스킹된 비디오 모델링과 다중 모달 대비 학습을 결합한 unified 표현 학습 패러다임을 개발한다.
- 생성적 특징과 판별적 학습 특징을 융합하기 위한 효율적인 교차 표현 상호작용을 가능하게 한다.
- 액션 이해, 비디오-언어 정렬, 열린 세계 응용에 걸친 광범위한 벤치마크에서 접근 방식을 검증한다.
제안 방법
- VideoMAE 스타일의 마스킹된 비디오 모델링을 사용하여 시공간 표현을 학습한다(높은 마스킹 비율).
- 캡션 디코더를 포함한 CLIP 유사 프레임워크를 기반으로 한 비디오-언어 대비 학습을 사용하여 교차 모 modalities 융합을 수행한다.
- 후처리로 감독된 액션 인식(Kinetics-710)을 통해 다운스트림 성능을 향상시킨다.
- 사전 학습을 각각 수행한 후 마스크된 비디오와 다중 모달 표현을 정렬하고 융합하기 위해 교차 모델 주의(CMA)를 도입한다.
- CMA 동안 백본은 안정성을 유지하기 위해 고정된 상태를 유지하면서 공동 표현 학습을 수행한다.
실험 결과
연구 질문
- RQ1마스킹된 비디오 모델링과 다중 모달 대비 학습에서 학습된 unified 표현이 다양한 비디오 태스크 전반에 일반화될 수 있는가?
- RQ2교차 모델 주의가 공동 엔드 투 엔드 학습 없이도 생성적 비디오 특징과 판별적 특징을 효과적으로 융합할 수 있는가?
- RQ3대규모 데이터셋과 모델 규모로 확장될 때 구성요소(VideoMAE, UniFormerV2 기반 다중 모달 인코더)의 확장성은 어떠한가?
- RQ4감독된 사전학습 후 다운스트림 성능이 액션 이해와 비디오-언어 태스크에 어떤 영향을 미치는가?
- RQ5인터뉴비디오가 오픈 월드 및 제로샷 설정에서 태스크 특화 모델과 비교해 어떤 성능을 보이는가?
주요 결과
| Dataset | Model | K400 | K600 | K700 |
|---|---|---|---|---|
| Kinetics-400 | InternVideo-D | 90.9 | 91.1 | 83.8 |
| Kinetics-400 | InternVideo-T | 91.1 | 91.3 | 84.0 |
- 39개 데이터셋 전반에서 액션 이해, 비디오-언어 정렬, 오픈 월드 태스크에 대해 최첨단 결과를 달성한다.
- Kinetics-400에서 InternVideo-D의 탑-1 정확도는 90.9%, InternVideo-T는 91.1%이며(K400에 대한 기본 대비 +1.2 증가).
- Something-Something V1/V2, ActivityNet, HACS, HMDB51에서 이전 SOTA 방식 대비 상당한 개선을 보여준다(예: SthSthV1: 70.0%, SthSthV2: 77.2%, ActivityNet: 94.3%, HACS: 95.5%, HMDB51: 89.3%).
- 시간적 및 시공간 로컬라이제이션 태스크(THUMOS-14, ActivityNet-v1.3, HACS, FineAction)에서 InternVideo가 SOTA급 mAP 향상을 제공하는 경쟁력을 보여준다(예: THUMOS-14 71.58, ActionFormer 머리로).
- 비디오-언어 태스크에서 강력한 검색 및 QA 성능을 보이며 MSR-VTT/Videos-to-Text 검색 및 Video QA에서 베이스라인 대비 향상을 보인다; 제로샷 및 오픈 세트 전이도 견고하다.
- 교차 모델 상호작용(CMA)은 MAE와 다중 모달 특징의 효과적 융합을 가능하게 하면서 백본은 고정된 상태를 유지해 계산적으로 실현 가능한 학습 레시피를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.