QUICK REVIEW

[논문 리뷰] InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Yi Wang, Kunchang Li|arXiv (Cornell University)|2022. 12. 06.

Human Pose and Action Recognition인용 수 91

한 줄 요약

InternVideo는 마스킹된 비디오 모델링과 비디오-언어 대비 학습을 통합해 일반 비디오 파운데이션 모델을 구축하고, 39개 데이터셋과 다양한 비디오 태스크에서 최첨단 성능을 달성합니다.

ABSTRACT

The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .

연구 동기 및 목표

이미지 중심의 사전 학습을 넘어 일반 비디오 파운데이션 모델의 필요성에 동기를 부여한다.
마스킹된 비디오 모델링과 다중 모달 대비 학습을 결합한 unified 표현 학습 패러다임을 개발한다.
생성적 특징과 판별적 학습 특징을 융합하기 위한 효율적인 교차 표현 상호작용을 가능하게 한다.
액션 이해, 비디오-언어 정렬, 열린 세계 응용에 걸친 광범위한 벤치마크에서 접근 방식을 검증한다.

제안 방법

VideoMAE 스타일의 마스킹된 비디오 모델링을 사용하여 시공간 표현을 학습한다(높은 마스킹 비율).
캡션 디코더를 포함한 CLIP 유사 프레임워크를 기반으로 한 비디오-언어 대비 학습을 사용하여 교차 모 modalities 융합을 수행한다.
후처리로 감독된 액션 인식(Kinetics-710)을 통해 다운스트림 성능을 향상시킨다.
사전 학습을 각각 수행한 후 마스크된 비디오와 다중 모달 표현을 정렬하고 융합하기 위해 교차 모델 주의(CMA)를 도입한다.
CMA 동안 백본은 안정성을 유지하기 위해 고정된 상태를 유지하면서 공동 표현 학습을 수행한다.

실험 결과

연구 질문

RQ1마스킹된 비디오 모델링과 다중 모달 대비 학습에서 학습된 unified 표현이 다양한 비디오 태스크 전반에 일반화될 수 있는가?
RQ2교차 모델 주의가 공동 엔드 투 엔드 학습 없이도 생성적 비디오 특징과 판별적 특징을 효과적으로 융합할 수 있는가?
RQ3대규모 데이터셋과 모델 규모로 확장될 때 구성요소(VideoMAE, UniFormerV2 기반 다중 모달 인코더)의 확장성은 어떠한가?
RQ4감독된 사전학습 후 다운스트림 성능이 액션 이해와 비디오-언어 태스크에 어떤 영향을 미치는가?
RQ5인터뉴비디오가 오픈 월드 및 제로샷 설정에서 태스크 특화 모델과 비교해 어떤 성능을 보이는가?

주요 결과

Dataset	Model	K400	K600	K700
Kinetics-400	InternVideo-D	90.9	91.1	83.8
Kinetics-400	InternVideo-T	91.1	91.3	84.0

39개 데이터셋 전반에서 액션 이해, 비디오-언어 정렬, 오픈 월드 태스크에 대해 최첨단 결과를 달성한다.
Kinetics-400에서 InternVideo-D의 탑-1 정확도는 90.9%, InternVideo-T는 91.1%이며(K400에 대한 기본 대비 +1.2 증가).
Something-Something V1/V2, ActivityNet, HACS, HMDB51에서 이전 SOTA 방식 대비 상당한 개선을 보여준다(예: SthSthV1: 70.0%, SthSthV2: 77.2%, ActivityNet: 94.3%, HACS: 95.5%, HMDB51: 89.3%).
시간적 및 시공간 로컬라이제이션 태스크(THUMOS-14, ActivityNet-v1.3, HACS, FineAction)에서 InternVideo가 SOTA급 mAP 향상을 제공하는 경쟁력을 보여준다(예: THUMOS-14 71.58, ActionFormer 머리로).
비디오-언어 태스크에서 강력한 검색 및 QA 성능을 보이며 MSR-VTT/Videos-to-Text 검색 및 Video QA에서 베이스라인 대비 향상을 보인다; 제로샷 및 오픈 세트 전이도 견고하다.
교차 모델 상호작용(CMA)은 MAE와 다중 모달 특징의 효과적 융합을 가능하게 하면서 백본은 고정된 상태를 유지해 계산적으로 실현 가능한 학습 레시피를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.