QUICK REVIEW

[논문 리뷰] QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

Miao Zhang, Ruixiao Zhang|arXiv (Cornell University)|2026. 02. 23.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

QuickGrasp는 로컬 우선 비디오-언어 질의와 필요 시 엣지 보강으로 대형 VLM의 정확도에 맞먹는 성능을 제공하면서 응답 지연을 크게 줄입니다(최대 12.8x).

ABSTRACT

Video-language models (VLMs) are reshaping video querying services, bringing unified solutions to complex perception and reasoning tasks. However, deploying large VLMs in real-world systems remains challenging due to their high resource demands, and remote-based deployment often results in unacceptable response delays. Although small, locally deployable VLMs offer faster responses, they unavoidably fall short in accuracy. To reconcile this trade-off, we propose QuickGrasp, a responsive, quality of service (QoS)-aware system that bridges this gap through a local-first architecture with on-demand edge augmentation. Built upon the highly modular architecture of VLMs, QuickGrasp shares the vision representation across model variants to avoid redundant computation. To maximize system-wide efficiency, QuickGrasp introduces three key designs: accelerated video tokenization, query-adaptive edge augmentation, and delay-aware, accuracy-preserving vision token density configuration. We implement a prototype of QuickGrasp and evaluate it across multiple video understanding benchmarks. The results show that QuickGrasp matches the accuracy of large VLMs while achieving up to a 12.8x reduction in response delay. QuickGrasp represents a key advancement toward building responsive video querying services for open-world understanding that fully leverage the capabilities of VLMs.

연구 동기 및 목표

로컬 처리와 엣지 보강의 균형을 맞추어 QoS 요구를 충족하는 반응형 비디오 질의 서비스를 구축하도록 동기를 부여한다.
작고 로컬에 배치 가능한 VLM과 대형 원격 VLM 간의 정확도 격차를 해소한다.
비디오 토큰화와 원격 추론으로 인한 엔드투엔드 응답 지연을 설계상으로 제거하거나 줄인다.
중복 계산을 최소화하기 위해 시각 표현을 재사용하는 모듈식 엣지 보조 파이프라인을 제공한다.

제안 방법

디코딩 및 샘플링 지연을 줄이기 위해 키프레임 정렬 샘플링 및 파이프라인식 비디오-토큰 변환으로 가속된 비디오 토큰화.
엣지에서 로컬 비전 토큰을 재사용하여 비디오 데이터를 재처리하지 않도록 질의 적응형 엣지 보강.
온도 스케일링으로 로컬 모델의 자신감을 보정하여 엣지 오프로딩 여부를 결정하는 신뢰도 기반 라우팅.
맥락적 멀티암드밴딧을 통해 토큰 밀도를 조정 가능한 매개변수로 삼아 정확도와 지연을 균형
다수의 비디오 이해 벤치마크에서 정확도를 유지하면서 지연을 줄이는 QuickGrasp의 프로토타입 구현 및 평가.

실험 결과

연구 질문

RQ1로컬 우선 비디오-언어 질의 시스템이 대형 원격 VLM의 정확도에 도달하면서 엔드 투 엔드 지연을 크게 줄일 수 있는가?
RQ2가속된 토큰화와 엣지 보강을 어떻게 조화시켜 작업 정확도를 해치지 않으면서 통신을 최소화할 수 있는가?
RQ3신뢰도 보정과 CMAB 기반 토큰 밀도 제어가 엣지 추론으로 오프로드할 시기를 효과적으로 결정할 수 있는가?
RQ4공유된 시각 표현이 엣지 증강 VLM 추론에서 모델 간 협업에 미치는 영향은 무엇인가?

주요 결과

이 시스템은 대형 VLM의 정확도와 일치하면서 응답 지연을 최대 12.8배까지 감소시킬 수 있다.
비디오 토큰화는 지연의 주요 원인이며, 특히 긴 비디오에서 그러하며 이 단계의 가속이 상당한 이득을 준다.
로컬 및 엣지 모델 간 시각 표현 공유는 중복 계산을 줄이고 효율적인 엣지 보강을 가능하게 한다.
온도 스케일링으로 보정된 자신감이 엣지 보강의 라우팅 결정을 개선하여 오분류 위험을 감소시킨다.
CMAB 기반의 적응형 토큰 밀도 구성이 질의 유형 전반에서 정확도와 지연의 균형을 효과적으로 맞춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.