[論文レビュー] StreamSense: Streaming Social Task Detection with Selective Vision-Language Model Routing
StreamSenseは軽量ストリーミングエンコーダを選択的ルーティングと組み合わせ、Vision–Language Modelのエキスパートへ難ケースをエスカレーションし、コンテキストが不足している場合は保留を行い、より高速で低遅延な社会的タスク検出を実現します。
Live streaming platforms require real-time monitoring and reaction to social signals, utilizing partial and asynchronous evidence from video, text, and audio. We propose StreamSense, a streaming detector that couples a lightweight streaming encoder with selective routing to a Vision-Language Model (VLM) expert. StreamSense handles most timestamps with the lightweight streaming encoder, escalates hard/ambiguous cases to the VLM, and defers decisions when context is insufficient. The encoder is trained using (i) a cross-modal contrastive term to align visual/audio cues with textual signals, and (ii) an IoU-weighted loss that down-weights poorly overlapping target segments, mitigating label interference across segment boundaries. We evaluate StreamSense on multiple social streaming detection tasks (e.g., sentiment classification and hate content moderation), and the results show that StreamSense achieves higher accuracy than VLM-only streaming while only occasionally invoking the VLM, thereby reducing average latency and compute. Our results indicate that selective escalation and deferral are effective primitives for understanding streaming social tasks. Code is publicly available on GitHub.
研究の動機と目的
- ビデオ、テキスト、音声を横断するソーシャルシグナルのリアルタイム監視を動機づける。
- 大半のタイムスタンプには軽量エンコーダを用い、難しいケースのみVLMへルーティングするストリーミング検出器を開発する。
- IoU重み付き損失でセグメント間のラベル干渉を緩和し、視聴覚の手がかりをテキスト信号と整合させる。
- StreamSenseを sentiment分類やヘイトコンテンツモデレーションといったタスクで評価する。
提案手法
- ライブ配信のほとんどのタイムスタンプに軽量ストリーミングエンコーダを使用する。
- 難解・曖昧なケースに対してVision–Language Model(VLM)専門家への選択的ルーティングを導入する。
- 視覚/聴覚の手がかりをテキスト信号と整合させるためのクロスモーダル対比損失を組み込む。
- ターゲットセグメントの重なりが乏しい場合のラベル干渉を低減するようIoU重み付き損失を適用する。
- 文脈情報が不十分な場合には決定を保留できるようにする。
- 精度、遅延、計算量を測るためにVLMのみのストリーミングベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1VLMへの選択的ルーティングはVLMのみのストリーミングよりソーシャルタスク検出の精度を向上させるか。
- RQ2IoU重み付き損失はセグメント境界でのラベル干渉にどのように影響するか。
- RQ3低コンテキストの瞬間に決定を保留することは全体的な遅延とリソース使用を改善するか。
- RQ4VLMのみへ難易度の高いケースだけエスカレートする場合、精度と遅延のトレードオフはどうなるか。
主な発見
- StreamSenseは評価タスクにおいてVLMのみのストリーミングよりソーシャルストリーミング検出で高い精度を達成する。
- 難解/曖昧な瞬間のみVLMを呼び出すことで平均遅延と計算量を削減する。
- クロスモーダル対比整合は視覚/聴覚手がかりとテキスト信号を結びつけ、効果的な検出を支援する。
- IoU重み付き損失はセグメント境界でのラベル干渉を緩和し、堅牢性を向上させる。
- 選択的エスカレーションと保留はストリーミングソーシャルタスク理解の有効なプリミティブとして浮上する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。