QUICK REVIEW

[논문 리뷰] Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding

Yikai Zheng, Xin Ding|arXiv (Cornell University)|2026. 03. 19.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

Em-Garde는 질의 파싱과 스트리밍 인식을 분리하여 쿼리 시간에 시각적 제안을 파싱하고 스트리밍 중에 프레임당 경량 매처를 사용함으로써 스트리밍 비디오 이해에서 효율적이고 실시간으로 능동적 응답을 가능하게 한다.

ABSTRACT

Recent advances in Streaming Video Understanding has enabled a new interaction paradigm where models respond proactively to user queries. Current proactive VideoLLMs rely on per-frame triggering decision making, which suffers from an efficiency-accuracy dilemma. We propose Em-Garde, a novel framework that decouples semantic understanding from streaming perception. At query time, the Instruction-Guided Proposal Parser transforms user queries into structured, perceptually grounded visual proposals; during streaming, a Lightweight Proposal Matching Module performs efficient embedding-based matching to trigger responses. Experiments on StreamingBench and OVO-Bench demonstrate consistent improvements over prior models in proactive response accuracy and efficiency, validating an effective solution for proactive video understanding under strict computational constraints.

연구 동기 및 목표

tight compute budgets 하에서 능동적 스트리밍 비디오 이해의 효율성-정확성 딜레마를 해결한다.
의미 추론을 프레임당 인식에서 분리하여 실시간 트리거링 결정을 가능하게 한다.
쿼리 시점에 사용자 질의를 지각적으로 근거가 있는 시각 제안으로 전환하여 경량 스트리밍 인식을 안내한다.
능동적 응답 및 온라인 이해를 위한 표준 벤치마크에서 데이터셋을 큐레이션하고 개선점을 시연한다.

제안 방법

Instruction-Guided Proposal Parser (IGPP)가 대형 다중모달 다학습 언어 모델을 사용하여 자연어 지시를 구조화된 시각 제안으로 변환한다.
Parse2Prop-1K 데이터셋은 IGPP를 감독 학습 미세조정 및 강화학습으로 트리거 정확도를 최적화하는 데 사용한다.
Lightweight Proposal Matching Module (LPMM)은 스트리밍 루프에서 짧은 비디오 구간과 제안을 경량 다중모달 공간에 임베딩하고 코사인 유사도를 계산한다.
트리거링 결정은 유사도 점수의 시간적 진화를 기반으로 한 간단한 임계값 규칙에서 도출된다.
시각 인코딩 캐시는 프레임 인코딩을 재사용하여 스트리밍 속도를 가속화하며 롱 비디오에서 A100 GPU로 10–15 fps를 가능하게 한다.
LPMM에 대한 임베딩 모델의 미세조정은 필요하지 않으며, 표준 임베딩 모델(Ops-MM-V1)이 사용된다.
IGPP 학습은 Parse2Prop-1K를 인간 또는 GPT-5가 작성한 제안으로 진행한다; RL 보상은 이벤트 시작 근처의 정확한 트리거링에 주어진 잘못된 양성 페널티 λ를 조정하여 최적화한다.
평가는 트리거링 정확도와 다운스트림 응답을 평가하기 위해 확립된 능동적 스트리밍 벤치마크를 따른다.]
research_questions:[

Figure 1 : Demonstration of our model v.s. existing Streaming VideoLLMs on the Proactive Streaming Understanding task. While existing models solve a complicated response/silence decision-making problem at every timestep, we turn the problem into a simple perception problem with query-time semantic p

실험 결과

연구 질문

RQ1의미 파싱을 인식에서 분리하는 것이 능동적 스트리밍 비디오 이해에서 효율성을 향상시키면서 트리거링 정확도를 희생하지 않는가?
RQ2지시-가이드 제안기가 경향적으로 지각 기반 시각 신호를 생성할 수 있으며 경량 인식 모듈에 신뢰성 있게 매칭되는가?
RQ3RL 기반 제안 최적화가 트리거링 타이밍과 거짓 양성에 어떤 영향을 미치는가?
RQ4Em-Garde 프레임워크가 정확도와 속도 측면에서 표준 능동 응답 및 온라인 비디오 이해 벤치마크에서 어떤 성능을 보이는가?
RQ5다양한 작업 과제에서 서로 다른 트리거 임계값 설정의 트레이드오프는 무엇인가?

주요 결과

기존의 실시간 능동 스트리밍 모델보다 StreamingBench 및 OVO-Bench에서 능동 응답 정확도 측면에서 우수(StreamingBench에서 3% 이상, OVO-Bench에서 F1 10% 이상).
임의의 길이의 비디오에 대해 A100 GPU에서 10–15 fps의 최신 처리 속도 달성.
실시간 인식 작업에서 SOTA 스트리밍 MLLM과 비교해 온라인 비디오 이해 성능도 경쟁력 유지.
RL 학습이 제안 품질을 향상시켜 지각 신호를 인식 모듈과 정렬하고 트리거링 타이밍을 개선.
명시적 임계값 제어 θ는 다양한 작업에서 재현성(리콜)과 정밀도 간의 tunable 트레이드오프를 제공.
IGPP + LPMM의 이 two-stage 설계가 무거운 의미 추론을 빠른 인식으로 효과적으로 분리하여 장기 지평 능동 스트리밍이 가능하게 함.

Figure 2 : Overview of the Em-Garde Framework: IGPP (Orange) receives the Instrcution $I$ and a low-fps video context before query time, and parse the instruction into perceptually-grounded visual cues. LPMM (Blue) runs in the streaming loop, matching the current sliding-window video segment to the

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.