[論文レビュー] Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding
Em-Garde はストリーミング知覚から意味論的解析を分離し、クエリ時に視覚 proposals を生成し、ストリーミング中には軽量なフレームごとのマッチャーを用いて、ストリーミング動画理解における効率的かつリアルタイムな proactively 応答を可能にします。
Recent advances in Streaming Video Understanding has enabled a new interaction paradigm where models respond proactively to user queries. Current proactive VideoLLMs rely on per-frame triggering decision making, which suffers from an efficiency-accuracy dilemma. We propose Em-Garde, a novel framework that decouples semantic understanding from streaming perception. At query time, the Instruction-Guided Proposal Parser transforms user queries into structured, perceptually grounded visual proposals; during streaming, a Lightweight Proposal Matching Module performs efficient embedding-based matching to trigger responses. Experiments on StreamingBench and OVO-Bench demonstrate consistent improvements over prior models in proactive response accuracy and efficiency, validating an effective solution for proactive video understanding under strict computational constraints.
研究の動機と目的
- ディープに計算リソースが限られた状況下で、プロアクティブなストリーミング動画理解における効率と精度のジレンマに対処する。
- 意味推論を各フレームの知覚から分離して、リアルタイムの発動意思決定を可能にする。
- クエリを知覚 grounded な視覚 proposals に変換し、軽量なストリーミング知覚を誘導する。
- プロアクティブ応答とオンライン理解の標準ベンチマークで改善を示すデータセットを構築・評価する。
提案手法
- Instruction-Guided Proposal Parser (IGPP) は、大型多模態言語モデルを用いて自然言語指示を構造化された視覚 proposals に変換する。
- Parse2Prop-1K データセットを用い、IGPP を監督付き微調整と強化学習で訓練し、トリガーの正確性を最適化する。
- Lightweight Proposal Matching Module (LPMM) はストリーミングループ内で動作し、短い動画セグメントと proposals を軽量多模態空間に埋め込み、コサイン類似度を計算する。
- 類似度スコアの時間発展からシンプルな閾値ベースのルールでトリガー決定を導く。
- 視覚エンコードのキャッシュによりストリーミングを加速し、長尺動画で A100 GPU 上 10–15 fps を実現する。
- LPMM の埋め込みモデルの微調整は不要で、既成の埋め込みモデル(Ops-MM-V1)を使用する。
- IGPP の訓練は Parse2Prop-1K に対して人間または GPT-5 作成の proposals を用い、RL はイベント発生直前の正確なトリガーを報酬とし、可調な偽陽性ペナルティ λ を導入する。
- 評価は既存のプロアクティブなストリーミングベンチマークに従い、トリガーの正確性と下流の応答の両方を評価する。

実験結果
リサーチクエスチョン
- RQ1意味推論を知覚から分離して、プロアクティブなストリーミング動画理解における効率を、トリガーの正確性を犠牲にせずに改善できるか。
- RQ2Instructions-guided proposer は、軽量な知覚モジュールにより安定してマッチ可能な、知覚 grounded な視覚手がかりを生成できるか。
- RQ3RL ベースの proposals 最適化がトリガーのタイミングと偽陽性にどのような影響を与えるか。
- RQ4Em-Garde フレームワークは、標準的なプロアクティブ応答およびオンライン動画理解ベンチマークで、精度と速度の観点からどの程度の性能を示すか。
- RQ5異なるタスクの課題に対するトリガー閾値設定のトレードオフはどうなるか。
主な発見
- StreamingBench および OVO-Bench におけるプロアクティブ応答の正確性で、既存のリアルタイムプロアクティブストリーミングモデルを上回る(StreamingBench で 3% を超える正確性、OVO-Bench で F1 が 10%)。
- 任意長の動画に対して A100 GPU で 10–15 fps の最先端処理速度を達成。
- リアルタイム知覚タスク(StreamingBench および OVO-Bench)におけるオンライン動画理解性能を SOTA なストリーミング MLLMs に対して競争力を維持。
- RL 学習により proposal の質が向上し、知覚手がかりと知覚モジュールを整合させ、トリガーのタイミングを改善。
- 明示的な閾値制御(θ)は、タスク間でリコールと適合のトレードオフを調整可能。
- 二段階設計(IGPP + LPMM)は、重い意味推論を高速な知覚から効果的に切り離し、長期的なプロアクティブストリーミングをスケールさせる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。