QUICK REVIEW

[论文解读] CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Yanqing Liu, Yingcheng Liu|arXiv (Cornell University)|Mar 9, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

CAST 引入一个轻量级的状态转换适配器，通过预测潜在的下一状态嵌入来强制时序和身份的一致性，在多种骨干网络和数据集上优于上下文无关基线的性能。

ABSTRACT

As video content creation shifts toward long-form narratives, composing short clips into coherent storylines becomes increasingly important. However, prevailing retrieval formulations remain context-agnostic at inference time, prioritizing local semantic alignment while neglecting state and identity consistency. To address this structural limitation, we formalize the task of Consistent Video Retrieval (CVR) and introduce a diagnostic benchmark spanning YouCook2, COIN, and CrossTask. We propose CAST (Context-Aware State Transition), a lightweight, plug-and-play adapter compatible with diverse frozen vision-language embedding spaces. By predicting a state-conditioned residual update ($Δ$) from visual history, CAST introduces an explicit inductive bias for latent state evolution. Extensive experiments show that CAST improves performance on YouCook2 and CrossTask, remains competitive on COIN, and consistently outperforms zero-shot baselines across diverse foundation backbones. Furthermore, CAST provides a useful reranking signal for black-box video generation candidates (e.g., from Veo), promoting more temporally coherent continuations.

研究动机与目标

形式化定义一致性视频检索（CVR），使其成为上下文感知的序列检索。
使用专用 CVR 基准诊断因状态与身份不一致引起的检索失败。
提出 CAST，一种即插即用的适配器，通过预测状态条件化残差来引导下一步检索。
在多种冻结的视觉-语言骨干网络上验证 CAST 的有效性，并确立其在视频生成候选中的重新排序潜力。

提出的方法

将流程性进展的帧建模为潜在状态转换，残差更新为 hat{v}_{t} = v_{t-1} + Delta(v_{t-1}, q_t, H_t)。
将 Delta 分解为两条路径：(i) 指令条件的状态转换 Delta_cond 与 (ii) 时间上下文注意力 Delta_ctx。
使用一种类型感知对比学习目标训练 CAST，结合批量级 InfoNCE 损失与细粒度状态/身份损失（L_state, L_ident）。
采用全集成评分推理，将语义、视觉连续性和预测状态的兼容信号（A、B、C）进行组合。
在 1 对 9 的多项选择 CVR 协议下，使用困难的状态否定样本与身份否定样本以隔离一致性缺陷进行评估。

实验结果

研究问题

RQ1显式状态转换建模是否相对于上下文无关检索提升了时序/状态的一致性？
RQ2CAST 能否在多样化的冻结骨干模型和嵌入空间中有效迁移？
RQ3在强否定评估下，CAST 如何影响状态准确性与身份保留？
RQ4CAST 是否能为下游视频生成候选提供有用的重新排序信号？

主要发现

方法	Context	YouCook2 Acc.	YouCook2 MnR	COIN Acc.	COIN MnR	CrossTask Acc.	CrossTask MnR	State (Diagnostic)	Ident. (Diagnostic)
CLIP Baseline	Context-Free	25.03	3.60	14.10	3.91	16.83	4.15	45.52	28.90
Late Fusion (Heuristic)	Fixed Weighting	31.10	2.56	17.85	3.28	22.05	2.86	28.69	68.29
Late Fusion (Learned)	Learned Weighting	36.60	2.53	44.66	2.11	25.52	2.86	40.06	76.06
Early Fusion	Feature Concat.	35.99	2.28	15.12	2.60	35.29	2.36	31.14	83.59
CAST (Ours)	State Transition	44.77	2.15	40.47	2.16	47.39	2.14	53.81	74.67

CAST 在 YouCook2、COIN 与 CrossTask 上普遍提升了状态判别和身份保留，相对于上下文无关基线。
CAST 在状态准确性上获得更高的分数，身份准确性与之相当或更好，在对状态敏感的检索上有显著提升。
CAST 能在多样化骨干（InternVideo2-1B、VideoPrism-B、GME-Qwen2-VL-2B、Qwen3-VL-Embedding-2B）上实现迁移，显著提升零样本基线。
双路径设计（残差状态转换与上下文注意力）相较于简单的后融合或前融合基线，表现出更优的性能。
基于 CAST 的信号可对蓝盒生成候选进行再排序，以产生更具时序一致性的后续内容。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。