[論文レビュー] CHAI: CacHe Attention Inference for text2video
CHAIはキャッシュアテンションを導入し、テキストからビデオへの拡散のクロスインファレンスキャッシュを可能にする。エンティティレベルのキャッシュ済み潜在変数を再利用することで、ほとんど品質劣化を伴わずに大幅なスピードアップを実現。
Text-to-video diffusion models deliver impressive results but remain slow because of the sequential denoising of 3D latents. Existing approaches to speed up inference either require expensive model retraining or use heuristic-based step skipping, which struggles to maintain video quality as the number of denoising steps decreases. Our work, CHAI, aims to use cross-inference caching to reduce latency while maintaining video quality. We introduce Cache Attention as an effective method for attending to shared objects/scenes across cross-inference latents. This selective attention mechanism enables effective reuse of cached latents across semantically related prompts, yielding high cache hit rates. We show that it is possible to generate high-quality videos using Cache Attention with as few as 8 denoising steps. When integrated into the overall system, CHAI is 1.65x - 3.35x faster than baseline OpenSora 1.2 while maintaining video quality.
研究の動機と目的
- テキストからビデオへの拡散の待機時間を低減する動機付けを行い、再学習や大規模なエンジニアリングを伴わずに実現する。
- プロンプト全体ではなくエンティティ(オブジェクト/シーン)レベルでのクロスインファレンス再利用を探る。
- キャッシュ情報を品質を低下させることなく注入する訓練不要のメカニズムを開発する。
- 実運用における実用的なキャッシュ予算とスケーラブルなキャッシュ管理を実証する。
提案手法
- キャッシュ済み潜在変数をキー/バリュー入力としてアテンションに利用し、クエリは依然としてプロンプト条件付きノイズとするCache Attentionを導入する。
- プロンプト内のエンティティをエンティティエクストラクターで特定し、潜在キャッシュにリンクされたベクトルDBに埋め込みを保存する。
- 遅延と品質のバランスをとるため、キャッシュ使用を2回目、3回目、4回目のデノイジングステップのみに限定する。
- OpenSora 1.2を基盤として、キャッシュ未ヒットのフルモードとキャッシュヒットのファストモードの二つの拡散モードを構築する。
- VBenchおよびVidProMデータセットにおいて、OpenSora 1.2、NIRVANA-VID、AdaCacheと比較して評価する。

実験結果
リサーチクエスチョン
- RQ1Cache Attentionはデノイジングステップと待機時間を削減しつつビデオ品質を維持できるか。
- RQ2制約されたキャッシュ予算の下で、キャッシュサイズがスケールするとどうなるか。
- RQ3CHAIは同期間隔の推論内キャッシュベースラインと比較して遅延と品質はどうか。
- RQ4高ヒット率を得るためのキャッシュ管理戦略は、限られたメモリ予算でどの程度有効か。
主な発見
- CHAIはOpenSora 1.2に対してエンドツーエンドで1.65x–3.35xのスピードアップを、52%–100%のキャッシュヒット率で実現しつつビデオ品質を維持する。
- デノイジングステップを8段にした場合、CHAIのVBenchスコアは0.7985となり、30ステップのベースラインOpenSora 1.2より0.3%下。
- モデストなストレージ予算(1–5GB)で高いキャッシュヒット率を達成(80%以上)。
- 全キャッシュの10%程度の制約下でもエンティティレベルの再利用はVidProMで52%のヒット率と1.65xの遅延削減を達成し、全プロンプト再利用を上回る。
- CHAIは品質でNIRVANA-VIDを上回りつつ遅延を低く維持し、類似または低い遅延でのVBenchスコアでAdaCacheを超える。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。