QUICK REVIEW

[論文レビュー] CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Yanqing Liu, Yingcheng Liu|arXiv (Cornell University)|Mar 9, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

CAST は、潜在的な次状態埋め込みを予測する軽量な状態遷移アダプターを導入し、手続き型ビデオ検索における時間的および同一性の一貫性を強制します。複数のバックボーンとデータセットで、文脈非依存のベースラインより性能を改善します。

ABSTRACT

As video content creation shifts toward long-form narratives, composing short clips into coherent storylines becomes increasingly important. However, prevailing retrieval formulations remain context-agnostic at inference time, prioritizing local semantic alignment while neglecting state and identity consistency. To address this structural limitation, we formalize the task of Consistent Video Retrieval (CVR) and introduce a diagnostic benchmark spanning YouCook2, COIN, and CrossTask. We propose CAST (Context-Aware State Transition), a lightweight, plug-and-play adapter compatible with diverse frozen vision-language embedding spaces. By predicting a state-conditioned residual update ($Δ$) from visual history, CAST introduces an explicit inductive bias for latent state evolution. Extensive experiments show that CAST improves performance on YouCook2 and CrossTask, remains competitive on COIN, and consistently outperforms zero-shot baselines across diverse foundation backbones. Furthermore, CAST provides a useful reranking signal for black-box video generation candidates (e.g., from Veo), promoting more temporally coherent continuations.

研究の動機と目的

Consistent Video Retrieval (CVR) を、文脈認識付きの逐次検索として形式的に定義する。
専用の CVR ベンチマークを用いて、状態および同一性の不整合に起因する検索失敗を診断する。
CAST を提案する。これは、次のステップの検索を導くために状態条件付き残差を予測するプラグアブルなアダプターである。
さまざまな固定済みビジョン-言語バックボーンにおける CAST の有効性を示し、ビデオ生成の再ランキング能力を確立する。

提案手法

フレームの手続き的進行を潜在状態遷移として表現し、残差更新 hat{v}_{t} = v_{t-1} + Delta(v_{t-1}, q_t, H_t) を適用する。
Delta を二つの経路に分解する： (i) 命令条件付き状態遷移 Delta_cond および (ii) 時間的文脈アテンション Delta_ctx。
バッチ内 InfoNCE ロスと細粒度の状態/同一性ロス (L_state, L_ident) を組み合わせたタイプ認識型コントラスト学習 objective で CAST を訓練する。
Full Ensemble による推論は、意味的、視覚的連続性、および予測状態の適合性信号（A, B, C）を組み合わせて行う。
ハードな State Negatives および Identity Negatives を用いた 1 対 9 の多選択 CVR プロトコルで、整合性の欠陥を分離して評価する。

実験結果

リサーチクエスチョン

RQ1明示的な状態遷移モデリングは、文脈非依存の検索に対して時間的/状態的一貫性を改善するか。
RQ2CAST はさまざまな凍結バックボーンモデルと埋め込み空間に効果的に転移できるか。
RQ3ハードネガティブ評価の下で、CAST は状態の正確さと同一性の保持にどのような影響を与えるか。
RQ4CAST は下流のビデオ生成候補の再ランキング信号として有用ですか。

主な発見

Method	Context	YouCook2 Acc.	YouCook2 MnR	COIN Acc.	COIN MnR	CrossTask Acc.	CrossTask MnR	State (Diagnostic)	Ident. (Diagnostic)
CLIP Baseline	Context-Free	25.03	3.60	14.10	3.91	16.83	4.15	45.52	28.90
Late Fusion (Heuristic)	Fixed Weighting	31.10	2.56	17.85	3.28	22.05	2.86	28.69	68.29
Late Fusion (Learned)	Learned Weighting	36.60	2.53	44.66	2.11	25.52	2.86	40.06	76.06
Early Fusion	Feature Concat.	35.99	2.28	15.12	2.60	35.29	2.36	31.14	83.59
CAST (Ours)	State Transition	44.77	2.15	40.47	2.16	47.39	2.14	53.81	74.67

CAST は、YouCook2、COIN、CrossTask すべてにおいて、文脈非依存ベースラインより状態識別と同一性保持を一貫して改善する。
CAST は State Acc. を高く、Ident. Acc. を同等または高く達成し、状態依存の検索で顕著な改善を示す。
CAST は多様なバックボーン（InternVideo2-1B、VideoPrism-B、GME-Qwen2-VL-2B、Qwen3-VL-Embedding-2B）に転移し、ゼロショットベースラインを大幅に強化。
残差状態遷移と文脈アテンションを組み合わせたデュアルパス設計は、単純な後方統合や前方統合ベースラインより優れた性能を発揮。
CAST に由来する信号は、青色ボックス生成候補の再ランキングを可能にし、時系列的一貫性の高い継続を生み出す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。