Skip to main content
QUICK REVIEW

[論文レビュー] StreamReady: Learning What to Answer and When in Long Streaming Videos

Shehreen Azad, Vibhav Vineet|arXiv (Cornell University)|Mar 9, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

tldr: StreamReadyは正確性とタイミングを同時に最適化するAnswer Readiness Score (ARS)を導入し、証拠が十分である場合のみ回答する readiness ベースのフレームワーク(メモリと軽量な readiness 機構)を提示します。また、長いストリーミング動画用の proactive multi-turn QA ベンチマーク ProReady-QA も導入します。

ABSTRACT

Streaming video understanding often involves time-sensitive scenarios where models need to answer exactly when the supporting visual evidence appears: answering before the evidence reflects speculation, answering after it has passed reduces real-time utility. To capture this behavior, we introduce a readiness-aware formulation of streaming video understanding with the Answer Readiness Score (ARS), a timing-aware objective with asymmetric early and late penalties. When combined with correctness, ARS defines an effective accuracy that measures not just whether a model is right, but whether it answers at the appropriate moment. Building on this formulation, we introduce StreamReady, a framework to unify temporal reasoning with on-time answering through a lightweight readiness mechanism that decides if sufficient evidence has been observed before responding. To evaluate this capability, we further introduce ProReady-QA, a benchmark with annotated answer evidence windows and proactive multi-turn questions across local and global contexts. StreamReady achieves superior performance on ProReady-QA, and consistently outperforms prior methods across eight additional streaming and offline long-video benchmarks, demonstrating robust and broadly generalizable video understanding capability.

研究の動機と目的

  • 回答すべき時点を考慮したストリーミング理解を formalize する(何を回答するかだけでなく、いつ回答するかを含意)。
  • Answer Readiness Score (ARS) を定義し、早すぎる回答と遅すぎる回答を非対称に罰する。
  • 十分な証拠が現れた後にのみ回答を Trigger する軽量な readiness 機構を開発する。
  • memory-augmented QA を用いて時間的推論と readiness シグナルを統合する StreamReady を構築する。

提案手法

  • ARS を導入する。早期・遅延のペナルティと正確性を組み合わせた非対称的 timing-aware 評価指標。
  • StreamReady を提案する。階層的 Visual Memory Tree と Contextual Memory Bank を用いて多段階の視覚・意味的履歴を蓄積・取得する。
  • 短期・長期のクエリ認識推論を memory slots 上で行うデュアルブランチの Q-Former を採用する。
  • 学習可能な <RDY> トークンと Readiness Head を組み込み、回答生成をゲートしタイミングの正確性を強制する。
  • 注釈付き証拠ウィンドウと proactive なマルチターン質問を用いて streaming タスクの readiness を評価する ProReady-QA を開発する。
  • ground-truth 証拠のタイムスタンプを必要とせず、 memory 表現から導出された pseudo-supervision によって readiness シグナルを訓練する。
Figure 2 : Framework Overview. StreamReady encodes streaming videos into a visual memory tree and reasons through short and long-term branches. A learnable <RDY> token, guided by a readiness head, gates the reasoning output until sufficient evidence is observed. Once ready, the long-term representat
Figure 2 : Framework Overview. StreamReady encodes streaming videos into a visual memory tree and reasons through short and long-term branches. A learnable <RDY> token, guided by a readiness head, gates the reasoning output until sufficient evidence is observed. Once ready, the long-term representat

実験結果

リサーチクエスチョン

  • RQ1ストリーミング動画 QA において正確さだけでなく回答のタイミングを formal に評価するにはどうすればよいか。
  • RQ2軽量な readiness 機構は十分な視覚的証拠が蓄積されたときに回答を出すことを信頼性高く判断できるか。
  • RQ3 memory-augmented 推論は proactive なストリーミング Scenario で正確さと応答性の両方を改善するか。
  • RQ4 readiness-aware なストリーミングは長い動画や異なるストリーミングベンチマークにどの程度 generalize するか。

主な発見

  • StreamReady は ProReady-QA タスクでベースラインより高い正確性と ARS を達成し、タイミングの整合と正確性が改善されていることを示す。
  • readiness 機構は誤検知の回答を減少させ、証拠と回答の時間的整合を tight にする。
  • StreamReady は proactive および非 proactive 設定を含む複数のストリーミングベンチマークで一貫して prior 方法を上回る。
  • メモリ階層とクエリ認識推論により長期的な理解とストリーミング QA の証拠取得が堅牢になる。
  • StreamReady は offline の長編動画ベンチマークでも良好な性能を示し、 readiness 評価の外でも一般化を示す。
Figure 3 : Examples of each task in ProReady-QA. Here, the question and answer frames are color-coded.
Figure 3 : Examples of each task in ProReady-QA. Here, the question and answer frames are color-coded.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。