[논문 리뷰] LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment
LanguageBind는 모든 모달리티를 직접 언어 공간에 정렬하여 N 모달리티로 비디오-언어 사전학습을 확장하고, 10M 언어 정렬 멀티모달 쌍을 갖춘 VIDAL-10M를 도입하며, VL, IL, DL, AL 과제에서 제로샷 및 검색 성능을 강하게 달성한다.
The video-language (VL) pretraining has achieved remarkable improvement in multiple downstream tasks. However, the current VL pretraining framework is hard to extend to multiple modalities (N modalities, N>=3) beyond vision and language. We thus propose LanguageBind, taking the language as the bind across different modalities because the language modality is well-explored and contains rich semantics. Specifically, we freeze the language encoder acquired by VL pretraining, then train encoders for other modalities with contrastive learning. As a result, all modalities are mapped to a shared feature space, implementing multi-modal semantic alignment. While LanguageBind ensures that we can extend VL modalities to N modalities, we also need a high-quality dataset with alignment data pairs centered on language. We thus propose VIDAL-10M with Video, Infrared, Depth, Audio and their corresponding Language, naming as VIDAL-10M. In our VIDAL-10M, all videos are from short video platforms with complete semantics rather than truncated segments from long videos, and all the video, depth, infrared, and audio modalities are aligned to their textual descriptions. LanguageBind has achieved superior performance on a wide range of 15 benchmarks covering video, audio, depth, and infrared. Moreover, multiple experiments have provided evidence for the effectiveness of LanguageBind in achieving indirect alignment and complementarity among diverse modalities. Code address: https://github.com/PKU-YuanGroup/LanguageBind
연구 동기 및 목표
- 비전과 언어를 넘어서 N 모달리티에 대한 비디오-언어 사전학습을 언어를 바인딩 시맨틱 앵커로 활용하여 확장하려는 동기부여.
- VL 사전학습으로부터의 언어 인코더를 고정하고, 다른 모달리더를 대비학습으로 학습시켜 모든 모달리티를 공통의 시맨틱 공간으로 매핑한다.
- VL, IL, DL, AL를 포괄하는 대규모의 직접적 언어 정렬 멀티모달 데이터셋(VIDAL-10M)을 만들어 확장 가능한 사전학습을 지원한다.
- 직접적인 언어 기반 정렬을 통해 비디오, 심도, 적외선, 오디오 모달리티에서 제로샷 검색 및 분류를 향상시킴을 시연한다.
제안 방법
- 비언어 모달리티에 대해 OpenCLIP-large에서 초기화된 24층 비전 트랜스포머 인코더를 사용한다; 심도와 적외선을 RGB-동일 물질로 처리한다; 오디오를 10초 스펙트로그래프로 변환하고 채널을 복제한다.
- 인코딩 효율성을 높이기 위해 패치 기반 마스킹과 MAE 스타일 토큰 마스킹을 적용한다.
- 언어 인코더를 고정한 채 LoRA로 모달리티 인코더를 미세조정하고 다중 모달 정렬을 가능하게 한다.
- 텍스트를 인코딩하고 정렬을 위한 텍스트 로짓을 생성하기 위해 OpenCLIP에서 초기화된 12층 언어 트랜스포머를 사용한다.
- 각 모달리티를 공유 임베딩 공간의 언어와 맞추기 위해 이중 방향 대비 객체(L_M2T 및 L_T2M)를 최적화한다.
실험 결과
연구 질문
- RQ1언어 기반 직접 정렬이 이미지 대신을 사용하지 않고 VL 사전학습을 N 모달리티로 확장하는 데 실현 가능하게 하는가?
- RQ2고정된 언어 인코더와의 대비학습이 심도, 적외선, 오디오 및 다른 모달리티를 효과적으로 언어에 정렬하는가?
- RQ3대규모의 언어 정렬 VIDAL-10M 데이터셋이 제로샷 검색 및 모달리티별 분류 작업에 어떤 영향을 미치는가?
- RQ4언어Bind가 비디오-언어 및 교차 모달 벤치마크에서 기존 다중 모달 방법들보다 상대적으로 얻는 이득은 무엇인가?
주요 결과
- LanguageBind는 여러 기준선과 비교해 MSR-VTT, MSVD, DiDeMo, ActivityNet에서 제로샷 비디오-텍스트 검색에서 최첨단 성과를 달성한다.
- LanguageBind는 이미지바인드(ImageBind) 및 OpenCLIP 기준선 대비 심도(NYU-D) 및 적외선(LLVIP) 분류에서 실질적인 제로샷 개선을 보인다.
- LanguageBind는 Clotho 및 Audiocaps에서 제로샷 음향-언어 검색을 향상시키며 AVFIC 및 ImageBind를 능가한다.
- VIDAL-10M은 VL, IL, DL, AL에 대한 직접 언어 정렬 데이터를 제공하며 MSR-VTT 및 MSVD에서 제로샷 평가에서 HowTo100M 하위집합보다 우수하다.
- 실험은 직접적인 언어 정렬의 이점, 교차 모달 검색의 등장, 다중 모달의 상호 보완적 사용의 효과를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.