Skip to main content
QUICK REVIEW

[논문 리뷰] VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding

Muhammad Maaz, Hanoona Rasheed|arXiv (Cornell University)|2024. 06. 13.
Human Pose and Action Recognition인용 수 7
한 줄 요약

VideoGPT+는 이미지와 비디오 인코더를 세그먼트별 샘플링 및 시각 어댑터와 결합하여 비디오 이해를 향상시키고 VCGBench, VCGBench-Diverse, MVBench 및 제로샷 QA에서 강력한 결과를 달성하며 VCG+112K 및 VCGBench-Diverse 벤치마크를 도입합니다.

ABSTRACT

Building on the advances of language models, Large Multimodal Models (LMMs) have contributed significant improvements in video understanding. While the current video LMMs utilize advanced Large Language Models (LLMs), they rely on either image or video encoders to process visual inputs, each of which has its own limitations. Image encoders excel at capturing rich spatial details from frame sequences but lack explicit temporal context, which can be important in videos with intricate action sequences. On the other hand, video encoders provide temporal context but are often limited by computational constraints that lead to processing only sparse frames at lower resolutions, resulting in reduced contextual and spatial understanding. To this end, we introduce VideoGPT+, which combines the complementary benefits of the image encoder (for detailed spatial understanding) and the video encoder (for global temporal context modeling). The model processes videos by dividing them into smaller segments and applies an adaptive pooling strategy on features extracted by both image and video encoders. Our architecture showcases improved performance across multiple video benchmarks, including VCGBench, MVBench and Zero-shot question-answering. Further, we develop 112K video-instruction set using a novel semi-automatic annotation pipeline which further improves the model performance. Additionally, to comprehensively evaluate video LMMs, we present VCGBench-Diverse, covering 18 broad video categories such as lifestyle, sports, science, gaming, and surveillance videos. This benchmark with 4,354 question-answer pairs evaluates the generalization of existing LMMs on dense video captioning, spatial and temporal understanding, and complex reasoning, ensuring comprehensive assessment across diverse video types and dynamics. Code: https://github.com/mbzuai-oryx/VideoGPT-plus.

연구 동기 및 목표

  • 이미지 인코더의 공간적 디테일과 비디오 인코더의 시계열 맥락을 활용하기 위한 듀얼 인코더 융합의 필요성과 동기를 제시한다.
  • 정교한 시간적 다이내믹스를 포착하기 위한 세그먼트별 샘플링을 제안한다.
  • 이미지 및 비디오 특징을 언어 공간으로 투영하고 정렬하기 위한 시각 어댑터를 도입한다.
  • 높은 품질의 촘촘한 비디오 설명과 QA 데이터(VCG+ 112K) 및 다양한 벤치마크(VCGBench-Diverse)를 만들어 평가를 강화한다.

제안 방법

  • 리치한 공간 특징을 위한 이미지 인코더(사전 학습)와 글로벌 시간 맥락을 위한 비디오 인코더(사전 학습)를 사용하는 듀얼 인코더를 활용한다.
  • 비디오를 K개 세그먼트로 나누고 각 세그먼트 내에서 처리하기 위해 세그먼트별 샘플링을 적용한다.
  • 비전-언어 어댑터(trainable)와 2x2 적응형 토큰 풀링을 통해 이미지 및 비디오 특징을 언어 공간으로 투영하여 시퀀스 길이를 줄인다.
  • 이미지 임베딩과 세그먼트별 비디오 임베딩을 텍스트 임베딩과 연결(concatenate)하고 LoRA로 미세조정된 Frozen Large Language Model에 입력한다.
  • 두 단계로 학습한다: CC-595K에서 이미지 전용 및 비디오 전용 어댑터로 사전 학습한 다음 결합된 특징(4K 컨텍스트)에 대해 LoRA로 지시어 튜닝한다.
  • VCGBench, VCGBench-Diverse, MVBench 및 제로샷 QA에서 평가한다; VCGBench/VCGBench-Diverse에는 16프레임, MVBench에는 8프레임을 사용한다.

실험 결과

연구 질문

  • RQ1듀얼 인코더(이미지 + 비디오)가 단일 인코더 기반의 기준선과 비교할 때 비디오 대화 성능에 어떤 영향을 미치는가?
  • RQ2LLM 기반 비디오 이해에서 균일 샘플링보다 세그먼트별 샘플링이 시간적 다이내믹스를 더 잘 보존하는가?
  • RQ3시각-언어 어댑터와 풀링 전략이 시각 특징과 언어 모델의 정렬에 미치는 영향은 무엇인가?
  • RQ4VideoGPT+ 변형들이 다양한 비디오 도메인(VCGBench-Diverse)과 제로샷 QA 설정에 얼마나 잘 일반화되는가?

주요 결과

방법CIDOCUTUCO평균
VideoGPT+ (ours)3.273.183.742.833.393.28
Video-ChatGPT Maaz2023VideoChatGPT2.402.522.621.982.372.38
BT-Adapter bt_adapter2.682.693.272.342.462.69
VTimeLLM huang2023vtimellm2.783.103.402.492.472.85
Chat-UniVi jin2023chatunivi2.892.913.462.892.812.99
LLAMA-VID llamavid2.963.003.532.462.512.89
Video-LLaVA video-llava2.842.863.442.462.572.81
VideoChat2 li2023mvbench3.022.883.512.662.812.98
  • VideoGPT+은 평균 VCGBench 점수 3.28을 달성하며 이전 최첨단 방법들을 능가한다.
  • VCGBench-Diverse에서 VideoGPT+는 평균 2.47을 달성하며 공간 이해 및 시각적 추론에서 주목할 만한 향상을 보인다.
  • MVBench 결과 VideoGPT+가 20개 과제에서 평균 58.7%를 기록하고 여러 특정 과제에서 개선을 보였다(예: Action Prediction, Moving Count, Moving Attributes).
  • 제로샷 QA에서 VideoGPT+는 MSVD-QA, MSRVTT-QA, TGIF-QA, ActivityNet-QA 데이터셋 전반에서 이전 방법들을 상회한다(예: MSVD-QA 72.4 정확도, 3.9 점수).
  • 특성 제거 실험은 듀얼 인코더가 단일 인코더 구성보다 더 뛰어남을 시사한다(듀얼: 3.28 대 이미지-전용 3.17 및 비디오-전용 3.20).
  • VCG+ 112K는 밀도 높은 설명 및 QA 데이터에 대한 향상된 주석 파이프라인으로 DO 및 TU를 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.