QUICK REVIEW

[논문 리뷰] Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Bin Lin, Ye Yang|arXiv (Cornell University)|2023. 11. 16.

Multimodal Machine Learning Applications인용 수 20

한 줄 요약

Video-LLaVA는 이미지와 비디오 표현을 투영 이전에 공유 시각 특징 공간으로 통합하여 단일 LVLM이 두 모달리티를 이해하도록 하고, 여러 이미지- 및 비디오 중심 베이스라인을 능가합니다.

ABSTRACT

The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos. We aim for this work to provide modest insights into the multi-modal inputs for the LLM. Code address: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}

연구 동기 및 목표

단일 LVLM이 이미지와 비디오를 통합 시각 표현으로 처리하도록 만드는 동기.
LanguageBind 인코더를 사용하여 모달리티를 언어 특징 공간으로 사전 정렬하는 alignment-before-projection 제안.
統합 프레임워크에서 다중 모달 추론을 향상시키기 위한 이미지–비디오 공동 학습 활성화.
일관된 시각 표현이 광범위한 이미지 및 비디오 벤치마크에서 성능을 향상시킨다는 것을 입증하기.

제안 방법

Images와 V id eos를 공유 언어 특징 공간(통일된 시각 표현)으로 매핑하기 위해 LanguageBind 인코더를 사용합니다.
Emergent alignment를 달성하기 위해 이미지의 OpenCLIP, 비디오의 VIDAL-10M에서 사전 정렬된 모델로 인코더를 초기화합니다.
LLM 입력을 위한 통일 시각 표현을 매핑하는 공유 프로젝션 계층을 적용합니다.
두 단계의 이미지 및 비디오 데이터에서 공동 학습: 비전 이해 및 명령 조정.
LLM 백본으로 Vicuna-7B를 사용하고 2층 프로젝션 헤드 및 224x224 이미지 입력(8프레임 비디오 샘플링)을 사용합니다.
p(X_A | X_V, X_T)를 최대화하는 자기회귀 목적과 다회 대화를 통한 명령-조정으로 학습합니다.

실험 결과

연구 질문

RQ1프로젝션 전에 이미지와 비디오를 합친 통일 시각 공간으로 정렬하는 것이 LLM의 다중 모달 상호작용 학습을 향상시킬 수 있을까요?
RQ2이미지와 비디오를 공동 학습시키면 통일 표현 내 두 모달리티 모두에 상호 이익이 생길까요?
RQ3Video-LLaVA가 모달리티 특화 모델 및 다른 LVLM보다 다양한 이미지 및 비디오 벤치마크에서 어떤 성능을 보일까요?

주요 결과

Video-LLaVA는 9개의 이미지 벤치마크와 4개의 비디오 QA 데이터셋에서 강력한 성과를 달성하며, 종종 전문 모델을 능가합니다.
Video-LLaVA는 MSRVTT, MSVD, TGIF, ActivityNet에서 각각 5.8%, 9.9%, 18.6%, 10.1%의 개선으로 Video-ChatGPT를 상회합니다.
alignment-before-projection를 통한 통일 시각 표현은 이미지 및 비디오 작업 모두에서 분리 표현보다 더 큰 이점을 제공합니다.
이미지와 비디오의 공동 학습은 두 모달리티 모두에 상호 개선 효과를 주어 이미지 추론(VisWiz, LLaVA-Bench) 및 비디오 QA(MSVD, MSRVTT, TGIF, ActivityNet)를 향상시킵니다.
Video-LLaVA는 벤치마크 도구 키트(MMBench, LLaVA-Bench, MM-Vet)에서 더 크거나 같은 LVLM과의 경쟁력을 유지하거나 능가합니다.
특성 분석은 alignment-before-projection와 공동 학습이 성능 향상의 핵심 기여자임을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.