[논문 리뷰] ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting
ViKey는 프레임 인덱스의 순차적 시각 프롬트를 도입하고 Keyword–Frame Mapping 모듈로 VideoLLMs의 시간 이해력을 향상시켜, 학습 없이 플러그 앤 플레이 방식으로 희소 프레임에서도 더 나은 추론을 가능하게 한다.
Recent advancements in Video Large Language Models (VideoLLMs) have enabled strong performance across diverse multimodal video tasks. To reduce the high computational cost of processing dense video frames, efficiency-oriented methods such as frame selection have been widely adopted. While effective at minimizing redundancy, these methods often cause notable performance drops on tasks requiring temporal reasoning. Unlike humans, who can infer event progression from sparse visual cues, VideoLLMs frequently misinterpret temporal relations when intermediate frames are omitted. To address this limitation, we explore visual prompting (VP) as a lightweight yet effective way to enhance temporal understanding in VideoLLMs. Our analysis reveals that simply annotating each frame with explicit ordinal information helps the model perceive temporal continuity. This visual cue also supports frame-level referencing and mitigates positional ambiguity within a sparsely sampled sequence. Building on these insights, we introduce ViKey, a training-free framework that combines VP with a lightweight Keyword-Frame Mapping (KFM) module. KFM leverages frame indices as dictionary-like keys to link textual cues to the most relevant frames, providing explicit temporal anchors during inference. Despite its simplicity, our approach substantially improves temporal reasoning and, on some datasets, preserves dense-frame baseline performance with as few as 20% of frames.
연구 동기 및 목표
- VideoLLMs에서 프레임 샘플링이 입력 밀도를 감소시킬 때 시간적 추론 능력의 저하를 동기부여하고 해결한다.
- 시각 프롬프팅이 모델 재학습 없이 시간적 연속성을 회복시킬 수 있는지 조사한다.
- 프레임 인덱스 사전 매핑과 시각 프롬프트를 결합한 경량 프레임워크를 제안한다.
- 다양한 시간적 추론 벤치마크와 VideoLLMs에 걸쳐 접근법을 평가한다.
제안 방법
- 모델 매개변수를 수정하지 않고 각 입력 프레임에 순차적 프레임 인덱스 프롬트를 삽입한다(예: 프레임 #01).
- 공유 임베딩 공간을 통해 중요한 질의 키워드를 가장 관련성이 높은 프레임에 연결하는 Keyword–Frame Mapping(KFM)을 개발한다.
- 추론 중 명시적 시간적 기준점을 가능하게 하기 위해 맵핑된 프레임 인덱스를 포함하도록 사용자 질의를 재작성한다.
- VP 효과를 이해하기 위해 위치 임베딩 감소, 프레임 수준 참조, 주의 패턴을 분석한다.
- 여러 VideoLLMs와 비디오 작업에 걸쳐 학습 없이 플러그 앤 플레이 가능한 적용 가능성을 시연한다.
실험 결과
연구 질문
- RQ1시각 프롬프트가 시간적 위치 인코딩이 저하될 때 프레임 순서 인식을 회복할 수 있는가?
- RQ2프레임 번호 프롬프트가 VideoLLMs에서 사전과 같은 프레임 조회 및 역조회가 가능하게 하는가?
- RQ3시각 프롬프트가 비주얼-멀티모달 주의 및 시간적 기준 설정에 어떤 영향을 미치는가?
- RQ4VP와 KFM의 결합이 재학습 없이 희소 프레임 입력에서 시간 추론을 향상시키는가?
주요 결과
- 시각 프롬프트는 저하된 위치단서 하에서도 시간 이해력을 일관되게 향상시키며, 시험된 설정에서 2.9–9.9 포인트의 향상을 보였다.
- VP는 프레임 조회 및 역조회를 가능하게 하며, 프레임 수가 증가함에 따라 상당한 이득을 제공하고(일부 위치에서 완벽한 정확도까지).
- 좌하단과 우하단 프롬프트 배치가 조회와 역조회 작업 모두에서 더 높은 정확도를 보이며 위치 편향을 드러낸다.
- VP는 레이어 전반에 걸쳐 이미지 토큰에 대한 모델의 주의를 증가시키며, 특히 중간에서 말기 레이어에서 시공간 통합을 강화한다.
- VP와 KFM의 결합이 최상의 결과를 낳아 TempCompass, MVBench, VideoMME, LongVideoBench에서 기준치를 상회하며, 프레임의 단 20%만 사용해도 강한 성능을 보인다.
- 일부 데이터셋에서 희소 프레임을 사용한 ViKey가 Dense 프레임 기준선에 필적하거나 이를 상회하여 입력 감소에 대한 강건함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.