QUICK REVIEW

[論文レビュー] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Christian Simon, MAsato Ishii|arXiv (Cornell University)|Feb 24, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

MMHNetは、 routingと chunking を備えた多模態階層型非因果Mamba-2フレームワークを導入し、短い訓練クリップから長尺オーディオ（5分超）へのビデオ-to-オーディオ生成を一般化します。UnAV100およびLongValeデータセットで従来のLV2A法を上回ります。

ABSTRACT

Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.

研究の動機と目的

ビデオ-to-オーディオ生成における長さ一般化を、短い固定長データで学習し長尺出力で評価することにより検証する。
Explicitな位置エンコーディングに依存せず、ビデオ・テキスト・オーディオを整列させる多模態階層型ネットワークMMHNetを提案する。
非因果Mamba-2と階層的ルーティングが長時間のオーディオ品質と整合性を改善することを示す。

提案手法

潜在空間でのフローモッチングを採用し、多模態入力に条件付けられた長尺オーディオ分布をモデル化する。
グローバル条件付けとトークンレベル条件付けのために適応型層正規化を備えたMMAudio風MM-DiTブロックを使用する。
長い系列の位置埋め込みに依存しないためにTransformer注意機構を非因果Mamba-2に置換する。
テンポラルおよび多模态ルーティングを用いた階層的ルーティングを導入し、冗長トークンを圧縮し跨模态整合性を高める。
ストレートスルー推定器で圧縮空間のトークンを処理し最終出力を回復するためにチャンク化とデ chunking を実装する。
UnAV100およびLongValeデータセットで短い8秒ビデオ-オーディオクリップを訓練し、長尺シーケンスを評価する。

Figure 1 : Long-Video to Audio (LV2A) task overview. The challenge is framed as training models on fixed-length segments while requiring them to generalize to variable-length (long-form) audio outputs during inference.

実験結果

リサーチクエスチョン

RQ1短いビデオ-オーディオセグメントで学習したモデルは推論時に長尺オーディオ生成へ一般化できるか。
RQ2非因果Mamba-2コアと階層的ルーティングは長尺V2A整合性と品質を再訓練せず改善するか。
RQ3時間軸ルーティングと多模态ルーティングは長尺のLV2A生成における効率と整合性にどう影響するか。
RQ4MMHNetは Durationsレンジ（10秒～分）およびデータセット間で最先端のLV2A法と比べてどう性能が異なるか。

主な発見

MMHNetは分布整合性、音声品質、および多模态整合性の点でUnAV100およびLongValeにおいて従来のLV2A法を大幅に上回る。
非因果Mamba-2と階層的ルーティングは、トランスフォーマーや因果的バリアントより長尺の整合性とデシンクロ化スコアを改善する。
MMHNetは異なる長さに対して性能を維持または改善し、より長い動画（分単位）でベースラインを上回り、長尺の一貫性が高いことを示す。
ルーティングを伴う圧縮空間処理戦略は計算量を削減しつつクロスモーダル整合性を維持する。
閾値実験はルーティングの頑健なトークン選択閾値を0.5と同定し、複数の指標を改善する。

Figure 2 : We analyze the role of positional embeddings in V2A models such as MMAudio [ 4 ] , built on MMDiT [ 24 ] . Without positional embeddings (a), MMAudio fails to capture temporal structure, producing redundant audio dominated by prominent visual objects ( e.g . , car crashing). With adjusted

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。