[論文レビュー] Qwen2.5-Omni Technical Report
Qwen2.5-Omni は、テキスト・画像・音声・動画を処理し、Thinker-Talker アーキテクチャとブロック単位のストリーミングエンコーダおよび TMRoPE 位置埋め込みを用いて、ストリーミングのテキストと音声を生成するエンドツーエンドのマルチモーダルモデルです。
In this report, we present Qwen2.5-Omni, an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. To enable the streaming of multimodal information inputs, both audio and visual encoders utilize a block-wise processing approach. To synchronize the timestamps of video inputs with audio, we organize the audio and video sequentially in an interleaved manner and propose a novel position embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently generate text and speech while avoiding interference between the two modalities, we propose extbf{Thinker-Talker} architecture. In this framework, Thinker functions as a large language model tasked with text generation, while Talker is a dual-track autoregressive model that directly utilizes the hidden representations from the Thinker to produce audio tokens as output. Both the Thinker and Talker models are designed to be trained and inferred in an end-to-end manner. For decoding audio tokens in a streaming manner, we introduce a sliding-window DiT that restricts the receptive field, aiming to reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench. Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following is comparable to its capabilities with text inputs, as evidenced by benchmarks such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming Talker outperforms most existing streaming and non-streaming alternatives in robustness and naturalness.
研究の動機と目的
- リアルタイムで複数モダリティを知覚できる統一オムニモデルの動機づけと開発。
- 共有アテンションを介してモダリティを統合するためのアーキテクチャとエンコーディング方式を提案。
- 低遅延でテキストと自然な音声のストリーミング生成を可能にする。
- マルチモーダルタスクに対するエンドツーエンドの訓練と推論を実証。
- テキスト・音声・マルチモーダル評価スイート全体での性能をベンチマーク。
提案手法
- 音声と映像モダリティ間の時刻的整合性を符号化するための TMRoPE (Time-aligned Multimodal RoPE) を導入。
- Thinker がテキストを生成し、Talker が Thinker からの表現を用いて自己回帰的にストリーミング音声を出力する Thinker-Talker アーキテクチャを採用。
- オーディオおよびビジュアルエンコーダのブロック単位ストリーミング処理を実装し、プリフィルをサポートし初期遅延を削減。
- 受容野を制約しつつ、トークンを波形に変換するために Flow-Matching を用いた DiT ベースのストリーミングコーデックを滑動窓で使用。
- 3段階で事前学習を行い、初期化に既存の Qwen コンポーネントを活用し、長いシーケンスを含むマルチモーダルデータを拡張。
- ChatML を用いた指示追従データと強化学習で訓練し、音声生成を安定化させ自然さを向上。
実験結果
リサーチクエスチョン
- RQ1単一のモデルがテキスト・音声・画像・動画情報をエンドツーエンドで効果的に知覚・統合するにはどうすればよいか?
- RQ2モダリティ間の干渉を起こさず、ストリーミングのテキスト生成と音声生成を共同で実現できるか?
- RQ3初期遅延を最小化しつつ、タスク全体で高い性能を維持するためのアーキテクチャと訓練戦略は何か?
- RQ4同サイズの単一モダリティモデルと比較して、マルチモーダルベンチマークでの性能はどうか?
- RQ5映像と音声の理解における時間的整合性と交互の影響は何か?
主な発見
- Qwen2.5-Omni は Omni-Bench などのマルチモーダル評価で最先端の性能を達成。
- 本モデルのエンドツーエンドの音声指示追従は、MMLUや GSM8K のようなベンチマークでテキスト入力能力と一致している。
- ストリーミング Talker による音声生成は、堅牢性と自然さの点で多くの既存のストリーミングおよび非ストリーミング手法を上回る。
- Qwen2.5-Omni は、テキスト・音声・画像・動画タスクで、同程度のサイズのモデルと比べ競争力がある、あるいは上回る性能を示す。
- ブロック単位のストリーミングエンコーダと滑動窓 DiT ベースのコーデックは、ストリーミング音声出力の初期遅延を低減。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。