QUICK REVIEW

[論文レビュー] Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding

Yikai Zheng, Xin Ding|arXiv (Cornell University)|Mar 19, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

Em-Garde はストリーミング知覚から意味論的解析を分離し、クエリ時に視覚 proposals を生成し、ストリーミング中には軽量なフレームごとのマッチャーを用いて、ストリーミング動画理解における効率的かつリアルタイムな proactively 応答を可能にします。

ABSTRACT

Recent advances in Streaming Video Understanding has enabled a new interaction paradigm where models respond proactively to user queries. Current proactive VideoLLMs rely on per-frame triggering decision making, which suffers from an efficiency-accuracy dilemma. We propose Em-Garde, a novel framework that decouples semantic understanding from streaming perception. At query time, the Instruction-Guided Proposal Parser transforms user queries into structured, perceptually grounded visual proposals; during streaming, a Lightweight Proposal Matching Module performs efficient embedding-based matching to trigger responses. Experiments on StreamingBench and OVO-Bench demonstrate consistent improvements over prior models in proactive response accuracy and efficiency, validating an effective solution for proactive video understanding under strict computational constraints.

研究の動機と目的

ディープに計算リソースが限られた状況下で、プロアクティブなストリーミング動画理解における効率と精度のジレンマに対処する。
意味推論を各フレームの知覚から分離して、リアルタイムの発動意思決定を可能にする。
クエリを知覚 grounded な視覚 proposals に変換し、軽量なストリーミング知覚を誘導する。
プロアクティブ応答とオンライン理解の標準ベンチマークで改善を示すデータセットを構築・評価する。

提案手法

Instruction-Guided Proposal Parser (IGPP) は、大型多模態言語モデルを用いて自然言語指示を構造化された視覚 proposals に変換する。
Parse2Prop-1K データセットを用い、IGPP を監督付き微調整と強化学習で訓練し、トリガーの正確性を最適化する。
Lightweight Proposal Matching Module (LPMM) はストリーミングループ内で動作し、短い動画セグメントと proposals を軽量多模態空間に埋め込み、コサイン類似度を計算する。
類似度スコアの時間発展からシンプルな閾値ベースのルールでトリガー決定を導く。
視覚エンコードのキャッシュによりストリーミングを加速し、長尺動画で A100 GPU 上 10–15 fps を実現する。
LPMM の埋め込みモデルの微調整は不要で、既成の埋め込みモデル（Ops-MM-V1）を使用する。
IGPP の訓練は Parse2Prop-1K に対して人間または GPT-5 作成の proposals を用い、RL はイベント発生直前の正確なトリガーを報酬とし、可調な偽陽性ペナルティ λ を導入する。
評価は既存のプロアクティブなストリーミングベンチマークに従い、トリガーの正確性と下流の応答の両方を評価する。

Figure 1 : Demonstration of our model v.s. existing Streaming VideoLLMs on the Proactive Streaming Understanding task. While existing models solve a complicated response/silence decision-making problem at every timestep, we turn the problem into a simple perception problem with query-time semantic p

実験結果

リサーチクエスチョン

RQ1意味推論を知覚から分離して、プロアクティブなストリーミング動画理解における効率を、トリガーの正確性を犠牲にせずに改善できるか。
RQ2Instructions-guided proposer は、軽量な知覚モジュールにより安定してマッチ可能な、知覚 grounded な視覚手がかりを生成できるか。
RQ3RL ベースの proposals 最適化がトリガーのタイミングと偽陽性にどのような影響を与えるか。
RQ4Em-Garde フレームワークは、標準的なプロアクティブ応答およびオンライン動画理解ベンチマークで、精度と速度の観点からどの程度の性能を示すか。
RQ5異なるタスクの課題に対するトリガー閾値設定のトレードオフはどうなるか。

主な発見

StreamingBench および OVO-Bench におけるプロアクティブ応答の正確性で、既存のリアルタイムプロアクティブストリーミングモデルを上回る（StreamingBench で 3% を超える正確性、OVO-Bench で F1 が 10%）。
任意長の動画に対して A100 GPU で 10–15 fps の最先端処理速度を達成。
リアルタイム知覚タスク（StreamingBench および OVO-Bench）におけるオンライン動画理解性能を SOTA なストリーミング MLLMs に対して競争力を維持。
RL 学習により proposal の質が向上し、知覚手がかりと知覚モジュールを整合させ、トリガーのタイミングを改善。
明示的な閾値制御（θ）は、タスク間でリコールと適合のトレードオフを調整可能。
二段階設計（IGPP + LPMM）は、重い意味推論を高速な知覚から効果的に切り離し、長期的なプロアクティブストリーミングをスケールさせる。

Figure 2 : Overview of the Em-Garde Framework: IGPP (Orange) receives the Instrcution $I$ and a low-fps video context before query time, and parse the instruction into perceptually-grounded visual cues. LPMM (Blue) runs in the streaming loop, matching the current sliding-window video segment to the

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。