QUICK REVIEW

[論文レビュー] Early Failure Detection and Intervention in Video Diffusion Models

Kwon Byung-Ki, Sohwi Lim|arXiv (Cornell University)|Mar 15, 2026

Image and Video Quality Assessment被引用数 0

ひとこと要約

リアルタイム検査 (RI) パイプラインと潜在表現からRGBへの変換器（L2R）を導入し、テキストから動画への拡散過程における可能性のある失敗を検出・介入して再生成コストを削減し、意味的整合性と品質を向上させる。

ABSTRACT

Text-to-video (T2V) diffusion models have rapidly advanced, yet generations still occasionally fail in practice, such as low text-video alignment or low perceptual quality. Since diffusion sampling is non-deterministic, it is difficult to know during inference whether a generation will succeed or fail, incurring high computational cost due to trial-and-error regeneration. To address this, we propose an early failure detection and diagnostic intervention pipeline for latent T2V diffusion models. For detection, we design a Real-time Inspection (RI) module that converts latents into intermediate video previews, enabling the use of established text-video alignment scorers for inspection in the RGB space. The RI module completes the conversion and inspection process in just 39.2ms. This is highly efficient considering that CogVideoX-5B requires 4.3s per denoising step when generating a 480p, 49-frame video on an NVIDIA A100 GPU. Subsequently, we trigger a hierarchical and early-exit intervention pipeline only when failure is predicted. Experiments on CogVideoX-5B and Wan2.1-1.3B demonstrate consistency gains on VBench with up to 2.64 times less time overhead compared to post-hoc regeneration. Our method also generalizes to a higher-capacity setting, remaining effective on Wan2.1-14B with 720p resolution and 81-frame generation. Furthermore, our pipeline is plug-and-play and orthogonal to existing techniques, showing seamless compatibility with prompt refinement and sampling guidance methods. We also provide evidence that failure signals emerge early in the denoising process and are detectable within intermediate video previews using standard vision-language evaluators.

研究の動機と目的

テキストから動画への拡散における非決定論的な失敗の問題と早期検知の必要性を動機づける。
RGBプレビューを介したデノイジング進行状況を監視するプラグアンドプレイの Real-time Inspection (RI) モジュールを提案する。
高速な中間プレビューを生成する軽量な Latent-to-RGB (L2R) コンバータを開発する。
予測される失敗のみに作動する階層的でサンプル適応的な介入メカニズムを設計する。
改善された効率と品質を持つ複数のモデルスケールと解像度での適用性を実証する。

提案手法

中間の潜在表現をRGBプレビューへデコードしてオンザフライのアラインメントスコアリングを行う Real-time Inspection (RI) モジュールを導入する。
ViCLIP をアラインメントスコアラーとして用い、キャッシュされたテキスト埋め込みを活用してRGBプレビューの低待機時間（約19.5 ms/ステップ）を実現する。
2つの因果的3D畳み込みブロックと学習済みアップサンプリングを備えた軽量な L2R コンバータ（0.059M パラメータ）を開発し、480p プレビューを19.7 msで生成する。
中間スコアを集約して最終アラインメントを予測するダイナミックな失敗検出器を実装し、初期の失敗信号を（ステップおよそ10–11付近で）可能にする。
階層的介入を最大3回の試行で実行する（ Trial 0: 基本生成; Trial 1: 単一フレームの意味的注入; Trial 2: VLMベースのプロンプト精製）ことでオーバーヘッドを最小化する。
既存のサンプリングガイダンスやプロンプト精製技術との互換性をプラグアンドプレーで実証する。

実験結果

リサーチクエスチョン

RQ1デノイジングプロセスの途中の RGB プレビューを用いてテキストから動画拡散における失敗を早期に検出できるか。
RQ2階層的で選択的な介入は、再生成のオーバーヘッドを削減しつつ動画品質とアラインメントを維持または改善できるか。
RQ3軽量な L2R デコーダは、重いデコーダと比較して信頼性の高いリアルタイム検査に十分か。
RQ4初期の失敗信号はモデルスケールや解像度の違いに一般化するか。
RQ5提案手法はプロンプト精製やサンプリング強化とどのように相互作用するか。

主な発見

Method	Final (CogVideoX-5B)	Quality (CogVideoX-5B)	Semantic (CogVideoX-5B)	Overhead (%)	Final (Wan2.1-1.3B)	Quality (Wan2.1-1.3B)	Semantic (Wan2.1-1.3B)	Overhead (%)
Original prompt	0.778	0.803	0.680	0.00	0.789	0.811	0.700	0.00
+ Regeneration	0.793	0.813	0.716	43.73	0.815	0.823	0.783	51.25
+ Ours	0.800	0.816	0.735	16.55	0.805	0.817	0.756	20.30

RI パイプラインは潜在の失敗を早期に検出し（CogVideoX-5B で平均ステップ約11、Wan2.1-1.3B で約10）、選択的に介入する。
L2R コンバータはRGBプレビューを19.7 ms、パラメータ数0.059Mで達成し、CogVideoX のような重いデコーダより200倍超の高速を実現する。
選択的介入は CogVideoX-5B で再生成より最大2.64倍、Wan2.1-1.3B で2.52倍の時間オーバーヘッドの削減を達成する。
全体として、プロンプト精製やサンプリング強化と組み合わせた場合に VB en ch の最終スコア（Final、Quality、Semantic）で一貫した改善をもたらす。
より高解像度・大規模モデル（例: Wan2.1-14B、720p/81フレーム）にも適用でき、効果が継続する。
途中のデノイジングステップでの失敗信号は最終品質を予測可能であり、標準的な視覚–言語評価者で検出できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。