QUICK REVIEW

[論文レビュー] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Chaoyou Fu, Haojia Lin|arXiv (Cornell University)|Jan 3, 2025

Neural Networks and Applications被引用数 3

ひとこと要約

VITA-1.5 は、 vision と speech を統合した多模態 LLM への三段階トレーニングパイプラインを導入し、外部 ASR/TTS モジュールなしでほぼリアルタイムの視聴覚相互作用を実現し、画像/動画のベンチマークで競争力のある結果を示し、ASR 性能も優れている。

ABSTRACT

Recent Multimodal Large Language Models (MLLMs) have typically focused on integrating visual and textual modalities, with less emphasis placed on the role of speech in enhancing interaction. However, speech plays a crucial role in multimodal dialogue systems, and implementing high-performance in both vision and speech tasks remains a significant challenge due to the fundamental modality differences. In this paper, we propose a carefully designed multi-stage training methodology that progressively trains LLM to understand both visual and speech information, ultimately enabling fluent vision and speech interaction. Our approach not only preserves strong vision-language capacity, but also enables efficient speech-to-speech dialogue capabilities without separate ASR and TTS modules, significantly accelerating multimodal end-to-end response speed. By comparing our method against state-of-the-art counterparts across benchmarks for image, video, and speech tasks, we demonstrate that our model is equipped with both strong visual and speech capabilities, making near real-time vision and speech interaction. Code has been released at https://github.com/VITA-MLLM/VITA.

研究の動機と目的

視覚と音声を統合した単一の LLM ベースのフレームワークを通じて多模態対話を高度化する。
段階的な訓練を通じて視覚データと音声データを徐々に導入し、モダリティ間の衝突を緩和する。
エンドツーエンドの相互作用における待機遅延を低減するため、個別の ASR および TTS モジュールへの依存を排除する。
オープンソースおよびプロプライエタリモデルと比較して、画像・動画・音声のベンチマークで競争力のある性能を示す。

提案手法

視覚と音声を段階的に組み込む大規模言語モデル（LLM）を用いた三段階の訓練パイプライン。
Stage 1: Vision-Language training は vision alignment、vision understanding、vision SFT をキャプションデータと QA データで実施。
Stage 2: Audio Input tuning は ASR 風のエンコーダ（CTC loss）による音声整合と、混合キャプション/QA データを用いた音声 SFT による音声 QA を実施。
Stage 3: Audio Output tuning はコードック、非自回帰デコーダ、自己回帰デコーダからなるエンドツーエンドの音声生成モジュールを用いて音声トークンと波形を生成。
入力モダリティは InternViT 視覚エンコーダとアダプタを持つ専用音声エンコーダを使用；出力は別個の TTS システムではなくエンドツーエンド音声モジュールに依存。

実験結果

リサーチクエスチョン

RQ1視覚、言語、音声の入力を処理・推論するために、モジュール化された ASR/TTS パイプラインを用いずに単一の LLM を効果的に訓練できるか。
RQ2段階的訓練戦略は、視覚-言語の性能を維持しつつ、堅牢な音声理解・生成を可能にするために跨モダリティの衝突を十分に緩和するか。
RQ3VITA-1.5 は open-source および proprietary の多模態モデルと比較して、画像・動画・音声のベンチマークでどの程度の性能を示すか。
RQ4リアルタイムの多模态相互作用のためのエンドツーエンド音声生成品質と待機遅延のトレードオフはどのようになるか。

主な発見

Method	LLM	MMB	MMS	MMMU	MathV	Hal	AI2D	OCR	MMVet	MME	Avg
VITA-1.5 (Stage 1)	Qwen2-7B	77.1	59.1	53.1	66.2	44.1	80.3	752.0	51.1	2311.0	67.1
VITA-1.5 (Stage 3)	Qwen2-7B	56.1	58.7	55.4	66.7	—	79.3	732.0	49.6	2352.0	66.8

VITA-1.5 は、視覚-言語の性能が主要なオープンソースモデルと競合し、画像ベンチマークである程度の比較可能性を示す。
Stage 2（Audio Input Tuning）および Stage 3（Audio Output Tuning）後も、モデルは視覚-言語能力の大部分を保持する。
モデルは Mandarin と English のベンチマークで強い ASR 性能を示し、いくつかの専門音声モデルを上回る。
動画理解ベンチマークでは VITA-1.5 はオープンソースの同等モデルに近づいており、プロプライエタリ系とのギャップは依然大きい。
エンドツーエンドの音声生成モジュールにより外部 TTS を用いずに音声対音声の相互作用が可能となり、待機遅延を低減。
訓練データは多様なモダリティ（画像、動画、テキスト、音声）と言語（中国語と英語）を網羅しており、ASR データは 110k 時間、テキスト-音声データは 3k 時間。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。