[論文レビュー] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation
JavisDiT++ は、モダリティ固有の MoE、同期のための時間整列 RoPE、そして人間の好みに合わせた AV-DPO を備えた、オーディオ-ビデオ生成の統一フレームワークを提示し、JAVG のオープンソース性能で最先端を達成します。
AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.
研究の動機と目的
- 品質、同期、そして人間の嗜好への整合性をより満たすためのジョイントオーディオ-ビデオ生成(JAVG)の改善を動機付ける。
- 強力な横断モーダル相互作用を可能にしつつ、スケーラビリティを維持するコンパクトで効率的なアーキテクチャを開発する。
- 明示的な時間的同期と人間の嗜好整合を導入し、独自モデルとのギャップを埋める。
- 公開データでの実験と包括的なアブレーションで有効性を示す。
提案手法
- 跨モーダル相互作用とモード内専門化を可能にするモダリティ特有の混成専門家(MS-MoE)を導入する。
- フレームレベルのオーディオ-ビデオ同期を単一の時間軸上で実現するための時間整列 RoPE(TA-RoPE)を提案する。
- AV-DPO を採用して、マルチモーダル報酬信号を用いて出力を人間の好みに合わせて整合させる。
- Wan2.1-1.3B-T2V を基盤として、約1M の公開データエントリ(780K の音声-テキストペアと 360K の音声-ビデオサンプル)で訓練する。
- 共通の DiT バックボーンを用い、注意機構を共有しつつモダリティ特有の FFN を用いて生成品質を高めつつ効率性を維持する。
実験結果
リサーチクエスチョン
- RQ1統一モデル内でオーディオ-ビデオの品質と同期をどう改善するか?
- RQ2モード特有の MoE 設計は、モードごとの生成を高めつつ跨モーダル相互作用を支援できるか?
- RQ3明示的な時間的整合(TA-RoPE)は、以前の手法より低遅延で優れた同期を生み出すか?
- RQ4人間の嗜好整合(AV-DPO)は、音響付きビデオの品質、一貫性、同期を主観的評価でも改善できるか?
主な発見
- MS-MoE は単一モダリティの生成品質を向上させつつ跨モーダル相互作用を維持する。
- TA-RoPE はオーディオとビデオのトークン間で明示的なフレームレベルの時間的整合を、推論コストの最小化とともに実現する。
- AV-DPO は客観的指標と人間評価の双方において、品質・一貫性・同期を一貫して改善する。
- JavisDiT++ はオープンソースの JAVG モデルの中で最先端の性能を達成し、定性的な結果で Veo3 との差を縮める。
- 約1M の公開データで効果的に学習することを示し、JAVG のデータ効率性を浮き彫りにする。
- アブレーション結果は MS-MoE、TA-RoPE、AV-DPO の各要素の効果を確認している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。