[논문 리뷰] VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
VALOR는 MGA 및 MGC 과제를 포함하는 시각-오디오-언어(tri-modality) 프리트레이닝 모델과 대규모 VALOR-1M 데이터셋을 도입하여 여러 교차 모달 벤치마크에서 최신 성능을 달성한다.
In this paper, we propose a Vision-Audio-Language Omni-peRception pretraining model (VALOR) for multi-modal understanding and generation. Different from widely-studied vision-language pretraining models, VALOR jointly models relationships of vision, audio and language in an end-to-end manner. It contains three separate encoders for single modality representations, and a decoder for multimodal conditional text generation. We design two pretext tasks to pretrain VALOR model, including Multimodal Grouping Alignment (MGA) and Multimodal Grouping Captioning (MGC). MGA projects vision, language and audio to the same common space, building vision-language, audio-language and audiovisual-language alignment simultaneously. MGC learns how to generate text tokens in conditions of vision, audio or their both. To promote vision-audio-language pretraining research, we construct a large-scale high-quality tri-modality dataset named VALOR-1M, which contains 1M audiable videos with human annotated audiovisual captions. Extensive experiments show that VALOR can learn strong multimodal correlations and be generalized to various downstream tasks (e.g., retrieval, captioning and question answering), with different input modalities (e.g., vision-language, audio-language and audiovisual-language). VALOR achieves new state-of-the-art performances on series of public cross-modality benchmarks. Code and data are available at project page https://casia-iva-group.github.io/projects/VALOR.
연구 동기 및 목표
- 오디오를 핵심 모달리티로 통합하여 시각-언어를 넘어선 트리모달 이해를 촉진한다.
- 시각, 오디오, 언어를 위한 개별 인코더와 다중 모달 디코더를 갖춘 엔드투엔드 VALOR 아키텍처를 제안한다.
- 모달리티 및 그룹(T-V, T-A, T-AV) 간의 정렬 및 생성을 위해 MGA와 MGC 선수 학습 과제를 도입한다.
- 사람이 주석한 시청각 자막이 있는 대규모 비전-오디오-언어 데이터세트 VALOR-1M과 시청각-언어 평가용 VALOR-32K를 구축한다.
제안 방법
- 세 개의 독립적 인코더(text, vision, audio)와 조건부 텍스트 생성을 위한 다중모달 디코더.
- Multimodal Grouping Alignment (MGA): 텍스트를 시각, 오디오, 시청각 모달리티와 미세한 그룹 기반 공간에서 정렬하기 위한 대조 학습.
- Multimodal Grouping Captioning (MGC): 시각, 오디오 또는 결합에 조건화된 마스킹된 텍스트 토큰을 재구성하기 위한 인과적 마스킹 언어 모델링으로 모달리티를 융합하기 위해 교차 어텐션을 사용한다.
- 토큰 및 모달리티 요소 간의 세밀한 유사도 계산을 토큰당/프레임당/클립당 상호작용으로 수행하고, 토큰/프레임/클립에 학습 가능한 가중치를 부여한다.
- 학습 목적은 알파 하이퍼파라미터로 MGA 손실과 MGC 손실을 결합하여 L = alpha * L_MGA + L_MGC로 나타낸다.
- 검색, 캡션, QA 등 다운스트림 작업에 맞춰 MGA 또는 MGC 손실을 선택하고 작업에 따라 다중모달 디코더를 사용할지 여부를 결정하여 적응한다.
실험 결과
연구 질문
- RQ1트리모달 프리트레이닝(비전, 오디오, 언어)이 비전-언어 프리트레이닝을 넘어선 교차 모달 이해를 향상시킬 수 있는가?
- RQ2MGA와 MGC가 시각, 오디오, 시청각 입력 간의 정렬 및 생성에 대해 판별적이고 생성적인 작업 모두에서 견고한 성능을 가능하게 하는가?
- RQ3 VALOR-1M 및 VALOR-32K가 검색, 자막 작성, QA에서 데이터셋 간의 확장성에 얼마나 잘 작동하는가?
- RQ4 VALOR가 모달리티별 미세 튜닝 없이도 비전-언어, 오디오-언어, 시청각-언어 벤치마크로 일반화할 수 있는가?
- RQ5세 모달리티 간의 토큰-프레임/클립 수준의 상호작용 기반 정렬에서 얻는 이점은 무엇인가?
주요 결과
- VALOR는 텍스트-비디오 검색, 비디오 QA, 텍스트-오디오 검색 등 광범위한 교차 모달 벤치마크에서 최신 결과를 달성한다.
- VALOR-32K AV 벤치마크는 시청각 검색 및 자막 작성 작업에서 강력한 성능을 보여주며 다수의 데이터셋(MSRVTT, DiDeMo, ActivityNet, LSMDC, VATEX)에서 기존 방법을 능가한다.
- VALOR-B 변형은 비전-단일 텍스트 및 비전-오디오-텍스트 작업에서 경쟁력 혹은 우수한 결과를 보여 모달리티 간 학습이 효과적임을 시사한다.
- VALOR는 더 큰 비전-언어 모델보다 일부 자막 작성 벤치마크에서 더 나은 성능을 보여 TRI-모달 프리트레이닝의 효율성 이점을 강조한다.
- VALOR-1M/VALOR-32K 데이터 및 모달리티 그룹화 프리트레이닝은 시각, 오디오, 시청각 입력 간의 검색, 자막 작성, QA에 대해 강력한 교차 모달 일반화를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.