QUICK REVIEW

[논문 리뷰] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Chaoyou Fu, Haojia Lin|arXiv (Cornell University)|2025. 01. 03.

Neural Networks and Applications인용 수 3

한 줄 요약

VITA-1.5는 비전과 음성을 통합한 멀티모달 LLM으로, 외부 ASR/TTS 모듈 없이도 실시간에 가까운 비전-음성 상호작용을 달성하고, 이미지/비디오 벤치마크에서 경쟁력 있는 결과와 강력한 ASR 성능을 보이는 세 단계 학습 파이프라인을 도입한다.

ABSTRACT

Recent Multimodal Large Language Models (MLLMs) have typically focused on integrating visual and textual modalities, with less emphasis placed on the role of speech in enhancing interaction. However, speech plays a crucial role in multimodal dialogue systems, and implementing high-performance in both vision and speech tasks remains a significant challenge due to the fundamental modality differences. In this paper, we propose a carefully designed multi-stage training methodology that progressively trains LLM to understand both visual and speech information, ultimately enabling fluent vision and speech interaction. Our approach not only preserves strong vision-language capacity, but also enables efficient speech-to-speech dialogue capabilities without separate ASR and TTS modules, significantly accelerating multimodal end-to-end response speed. By comparing our method against state-of-the-art counterparts across benchmarks for image, video, and speech tasks, we demonstrate that our model is equipped with both strong visual and speech capabilities, making near real-time vision and speech interaction. Code has been released at https://github.com/VITA-MLLM/VITA.

연구 동기 및 목표

비전과 음성을 단일 LLM 기반 프레임워크에 통합하여 멀티모달 상호작용을 진전시키는 것.
비전 및 오디오 데이터를 점진적으로 도입하는 단계적 학습을 통해 모달리티 간 충돌을 완화한다.
엔드투엔드 상호작용의 지연을 줄이기 위해 개별 ASR 및 TTS 모듈에 대한 의존성을 제거한다.
오픈소스 및 독점 모델과의 비교에서 이미지, 비디오, 음성 벤치마크에서 경쟁력 있는 성능을 입증한다.

제안 방법

비전과 오디오를 점진적으로 대형 언어 모델(LLM)에 통합하는 3단계 학습 파이프라인.
1단계: 캡션 및 QA 데이터를 사용한 비전 정렬, 비전 이해, 비전 SFT를 포함한 비전-언어 학습.
2단계: ASR 스타일 인코더(CTC 손실)를 통한 오디오 정렬과 혼합 캡션/QA 데이터로 음성 QA를 위한 Audio-SFT를 통해 오디오 입력 튜닝.
3단계: 코덱, 비자기회귀(non-autoregressive) 및 자기회귀(autoregressive) 디코더로 구성된 엔드투엔드 음성 생성기로 음성 토큰과 파형을 생성하는 음성 출력 튜닝.
입력 모달리티는 InternViT 비주얼 인코더와 어댑터가 있는 전용 오디오 인코더를 사용하며, 출력은 별도의 TTS 시스템이 아닌 엔드투엔드 음성 모듈에 의존한다.

실험 결과

연구 질문

RQ1단일 LLM이 모듈식 ASR/TTS 파이프라인 없이도 비전, 언어, 오디오 입력을 처리하고 추론하도록 효과적으로 학습될 수 있는가?
RQ2단계적 학습 전략이 모달리티 간 충돌을 충분히 완화하여 비전-언어 성능을 유지하면서 강력한 음성 이해 및 생성을 가능하게 하는가?
RQ3VITA-1.5가 오픈 소스 및 독점 멀티모달 모델과 비교하여 이미지, 비디오, 음성 벤치마크에서 어떤 성능을 보이는가?
RQ4실시간 멀티모달 상호작용을 위한 엔드투엔드 음성 생성 품질과 지연의 트레이드오프는 무엇인가?

주요 결과

VITA-1.5는 이미지 벤치마크에서 선도적인 오픈소스 모델과 경쟁력 있는 비전-언어 성능을 달성하고 일부 클로즈드 소스 시스템과도 유사한 수준이다.
2단계(Audio Input Tuning)와 3단계(Audio Output Tuning) 이후에도 모델은 시각-언어 기능의 대부분을 유지한다.
모델은 표준 Mandarin과 English 벤치마크에서 강력한 ASR 성능을 보이며 여러 전문 음성 모델을 능가한다.
비디오 이해 벤치마크에서 VITA-1.5가 오픈소스 동료에 근접하는 반면, 독점 시스템과의 차이는 더 크다.
엔드투엔드 음성 생성 모듈은 외부 TTS 없이 음성-대 음성 상호작용을 가능하게 하여 지연을 감소시킨다.
학습 데이터는 다양한 모달리티(이미지, 비디오, 텍스트, 오디오)와 언어(중국어 및 영어)를 커버하며, ASR 데이터 110k 시간과 텍스트-음성 데이터 3k 시간이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.