QUICK REVIEW

[논문 리뷰] CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Yanqing Liu, Yingcheng Liu|arXiv (Cornell University)|2026. 03. 09.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

CAST는 절차적 비디오 검색에서 시간적 및 신원 일관성을 보장하기 위해 잠재적 다음 상태 임베딩을 예측하는 가벼운 상태 전이 어댑터를 도입하여, 컨텍스트 무관 기본 baselines보다 여러 백본과 데이터셋에서 성능을 향상시킵니다.

ABSTRACT

As video content creation shifts toward long-form narratives, composing short clips into coherent storylines becomes increasingly important. However, prevailing retrieval formulations remain context-agnostic at inference time, prioritizing local semantic alignment while neglecting state and identity consistency. To address this structural limitation, we formalize the task of Consistent Video Retrieval (CVR) and introduce a diagnostic benchmark spanning YouCook2, COIN, and CrossTask. We propose CAST (Context-Aware State Transition), a lightweight, plug-and-play adapter compatible with diverse frozen vision-language embedding spaces. By predicting a state-conditioned residual update ($Δ$) from visual history, CAST introduces an explicit inductive bias for latent state evolution. Extensive experiments show that CAST improves performance on YouCook2 and CrossTask, remains competitive on COIN, and consistently outperforms zero-shot baselines across diverse foundation backbones. Furthermore, CAST provides a useful reranking signal for black-box video generation candidates (e.g., from Veo), promoting more temporally coherent continuations.

연구 동기 및 목표

일관된 비디오 검색(CVR)을 맥락 인지 연속 검색으로 형식적으로 정의한다.
상태 및 신원 불일치로 인한 검색 실패를 전용 CVR 벤치마크를 사용해 진단한다.
다음 단계 검색을 안내하기 위해 상태 조건부 잔차를 예측하는 플러그 앤 플레이 어댑터인 CAST를 제안한다.
다양한 고정된 비전-언어 백본 전반에 걸친 CAST의 효과를 입증하고 비디오 생성에 대한 재랭킹 가능성을 확립한다.

제안 방법

절차적 진행을 잠재 상태 전이로 모델링하고 잔차 업데이트 hat{v}_{t} = v_{t-1} + Delta(v_{t-1}, q_t, H_t)로 표현한다.
Delta를 두 경로로 분해한다: (i) 지시 조건부 상태 전이 Delta_cond와 (ii) 시간적 맥락 주의 Delta_ctx.
L_state, L_ident)과 같은 세밀한 상태/신원 손실을 포함하는 배치 수준 InfoNCE 손실과 함께 형식 인식 대조 학습 목적을 사용하여 CAST를 학습한다.
의미론적, 시각적 연속성, 예측된 상태 적합성 신호(A, B, C)를 결합하는 Full Ensemble 점수로 추론한다.
일관성 결함을 고립시키기 위해 하드 상태 부정 및 신원 부정에 대한 1대 9 다중 선택 CVR 프로토콜로 평가한다.

실험 결과

연구 질문

RQ1명시적 상태 전이 모델링이 맥락 무관 검색에 비해 시간적/상태 일관성을 향상시키는가?
RQ2CAST가 다양한 고정 백본 모델과 임베딩 공간에서 효과적으로 전달되는가?
RQ3하드 네거티브 평가 하에서 상태 정확도와 신원 보존에 CAST가 어떤 영향을 미치는가?
RQ4CAST가 다운스트림 비디오 생성 후보에 유용한 재랭킹 신호를 제공하는가?

주요 결과

Method	맥락	YouCook2 정확도	YouCook2 MnR	COIN 정확도	COIN MnR	CrossTask 정확도	CrossTask MnR	상태 (진단)	신원 (진단)
CLIP Baseline	맥락-없는	25.03	3.60	14.10	3.91	16.83	4.15	45.52	28.90
Late Fusion (Heuristic)	고정 가중치	31.10	2.56	17.85	3.28	22.05	2.86	28.69	68.29
Late Fusion (Learned)	학습 가중치	36.60	2.53	44.66	2.11	25.52	2.86	40.06	76.06
Early Fusion	특징 연결	35.99	2.28	15.12	2.60	35.29	2.36	31.14	83.59
CAST (Ours)	상태 전이	44.77	2.15	40.47	2.16	47.39	2.14	53.81	74.67

CAST는 YouCook2, COIN, CrossTask 전반에서 맥락 무관 기반선에 비해 상태 구분성과 신원 보존을 일관되게 향상시킨다.
CAST는 더 높은 State Acc.를 달성하고 Ident. Acc.은 동등하거나 더 나은 편이며, 상태 민감 검색에서 특히 큰 개선을 보인다.
CAST는 다양한 백본들(InernVideo2-1B, VideoPrism-B, GME-Qwen2-VL-2B, Qwen3-VL-Embedding-2B)에서 전달되며, 제로샷 기본선을 크게 향상시킨다.
잔차 상태 전이와 맥락 주의의 이중 경로 설계가 단순한 라이트 퓨전(늦은 융합)이나 조기 융합 대비 우수한 성능을 낸다.
CAST로부터 도출된 신호가 파란 상자 생성 후보를 재랭크하여 더 시간적으로 일관된 연속 부분을 생성하도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.