QUICK REVIEW

[논문 리뷰] StreamSense: Streaming Social Task Detection with Selective Vision-Language Model Routing

Han Wang, Deyi Ji|arXiv (Cornell University)|2026. 01. 30.

Hate Speech and Cyberbullying Detection인용 수 0

한 줄 요약

StreamSense는 경량 스트리밍 인코더를 선택적 라우팅과 결합해 Vision–Language Model 전문가에게 전달하고, 난이도 높은 케이스를 확대 처리하며 맥락이 충분하지 않을 때는 결정을 보류하여 더 빠르고 지연이 낮은 사회적 작업 탐지를 달성한다.

ABSTRACT

Live streaming platforms require real-time monitoring and reaction to social signals, utilizing partial and asynchronous evidence from video, text, and audio. We propose StreamSense, a streaming detector that couples a lightweight streaming encoder with selective routing to a Vision-Language Model (VLM) expert. StreamSense handles most timestamps with the lightweight streaming encoder, escalates hard/ambiguous cases to the VLM, and defers decisions when context is insufficient. The encoder is trained using (i) a cross-modal contrastive term to align visual/audio cues with textual signals, and (ii) an IoU-weighted loss that down-weights poorly overlapping target segments, mitigating label interference across segment boundaries. We evaluate StreamSense on multiple social streaming detection tasks (e.g., sentiment classification and hate content moderation), and the results show that StreamSense achieves higher accuracy than VLM-only streaming while only occasionally invoking the VLM, thereby reducing average latency and compute. Our results indicate that selective escalation and deferral are effective primitives for understanding streaming social tasks. Code is publicly available on GitHub.

연구 동기 및 목표

비디오, 텍스트, 오디오에 걸친 사회적 신호를 실시간으로 모니터링하도록 동기를 부여한다.
대부분의 타임스탬프에 경량 인코더를 사용하고 난이도가 높은 케이스만 VLM으로 라우팅하는 스트리밍 탐지기를 개발한다.
IoU 가중 손실로 세그먼트 간 라벨 간섭을 완화하고 교차 모달 신호를 텍스트 신호와 정렬한다.
감정 분석 및 혐오 콘텐츠 관리와 같은 작업에서 StreamSense를 평가한다.

제안 방법

라이브 스트림의 대부분의 타임스탬프에 경량 스트리밍 인코더를 사용한다.
난이도 높거나 모호한 케이스에 대해 Vision–Language Model (VLM) 전문가로의 선택적 라우팅을 도입한다.
시각/음향 신호를 텍스트 신호와 정렬하기 위한 교차 모달 대조 손실을 통합한다.
레이블 간섭을 줄이기 위해 잘 겹치지 않는 대상 세그먼트를 낮추는 IoU 가중 손실을 적용한다.
맥락 정보가 충분하지 않을 때 의사 결정을 연기하는 것을 허용한다.
정확도, 대기 시간 및 계산량을 측정하기 위해 VLM-전용 스트리밍 기준선과 비교한다.

실험 결과

연구 질문

RQ1VLM-전용 스트리밍보다 VLM으로의 선택적 라우팅이 스트리밍 소셜 태스크 탐지 정확도를 향상시킬 수 있는가?
RQ2IoU 가중 손실이 세그먼트 경계에서의 라벨 간섭에 어떤 영향을 미치는가?
RQ3저맥락 순간에 의사 결정을 연기하는 것이 전체 지연과 자원 사용에 도움이 되는가?
RQ4오직 난이도가 높은 케이스만 VLM으로 에스컬레이션할 때 정확도와 지연 간의 trade-off는 무엇인가?

주요 결과

StreamSense는 평가된 작업에서 VLM-전용 스트리밍보다 더 높은 정확도를 달성한다.
이 접근법은 VLM을 난이도 높은 모호한 순간에만 호출함으로써 평균 지연과 계산량을 줄인다.
교차 모달 대조 정렬이 시각/음향 신호를 텍스트 신호와 연결해 효과적인 탐지를 돕는다.
IoU 가중 손실이 세그먼트 경계에서의 라벨 간섭을 완화하고 강건성을 향상시킨다.
선별적 에스컬레이션과 연기는 스트리밍 소셜 태스크 이해에 효과적인 원시기법으로 대두된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.