Skip to main content
QUICK REVIEW

[論文レビュー] QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

Miao Zhang, Ruixiao Zhang|arXiv (Cornell University)|Feb 23, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

QuickGraspはローカル優先の動画-言語照会を可能にし、エッジ強化をオンデマンドで行うことで大規模VLMの精度に匹敵しつつ応答遅延を大幅に削減する(最大12.8倍)

ABSTRACT

Video-language models (VLMs) are reshaping video querying services, bringing unified solutions to complex perception and reasoning tasks. However, deploying large VLMs in real-world systems remains challenging due to their high resource demands, and remote-based deployment often results in unacceptable response delays. Although small, locally deployable VLMs offer faster responses, they unavoidably fall short in accuracy. To reconcile this trade-off, we propose QuickGrasp, a responsive, quality of service (QoS)-aware system that bridges this gap through a local-first architecture with on-demand edge augmentation. Built upon the highly modular architecture of VLMs, QuickGrasp shares the vision representation across model variants to avoid redundant computation. To maximize system-wide efficiency, QuickGrasp introduces three key designs: accelerated video tokenization, query-adaptive edge augmentation, and delay-aware, accuracy-preserving vision token density configuration. We implement a prototype of QuickGrasp and evaluate it across multiple video understanding benchmarks. The results show that QuickGrasp matches the accuracy of large VLMs while achieving up to a 12.8x reduction in response delay. QuickGrasp represents a key advancement toward building responsive video querying services for open-world understanding that fully leverage the capabilities of VLMs.

研究の動機と目的

  • ローカル処理とエッジ強化を組み合わせてQoSを満たす応答性の高い動画照会サービスの構築を促す。
  • 小規模でローカル展開可能なVLMと大規模なリモートVLMの間の精度ギャップを埋める。
  • 動画トークン化とリモート推論によるエンドツーエンドの応答遅延を、アーキテクチャ設計で排除または低減する。
  • 視覚表現の再利用を促進するモジュラーなエッジ支援パイプラインを提供し、冗長計算を最小化する。

提案手法

  • キーフレームに整列したサンプリングとパイプライン化された動画→トークン変換によるデコード・サンプリング遅延を短縮し、ビデオトークン化を加速。
  • エッジでローカルの視覚トークンを再利用して動画データの再処理を避ける、クエリ適応的なエッジ強化。
  • エッジオフロードを決定する際に温度スケーリングでローカルモデルの自信度を校正する信頼性ベースのルーティング。
  • トークン密度を文脈的多腕バンドイットを介して調整可能なQoS意識のトークン密度設定、精度と遅延のバランスを取る。
  • QuickGraspのプロトタイプ実装と複数の動画理解ベンチマークで、遅延を削減しつつ精度を維持する評価。

実験結果

リサーチクエスチョン

  • RQ1ローカル優先の動画-言語照会システムは、大規模なリモートVLMの精度を達成しつつエンドツーエンドの遅延を大幅に削減できるか?
  • RQ2加速されたトークン化とエッジ強化をどのように統合して、タスク精度を損なうことなく通信を最小化できるか?
  • RQ3自信度の校正とCMABベースのトークン密度制御は、エッジ推論へオフロードするタイミングを効果的に決定できるか?
  • RQ4共有された視覚表現がエッジ強化VLM推論のモデル間協調に与える影響は何か?

主な発見

  • システムは大規模VLMの精度に匹敵しつつ応答遅延を最大12.8倍まで削減できる。
  • 動画トークン化は遅延の主要因であり、特に長い動画での遅延が大きく、この段階の加速が substantialな利得を生む。
  • ローカルモデルとエッジモデル間で視覚表現を共有することで冗長計算を削減し、エッジ強化を効率的に実現できる。
  • 温度スケーリングによる校正済みの自信度はエッジ強化のルーティング判断を改善し、誤分類リスクを低減する。
  • CMABベースの適応的トークン密度設定は、クエリタイプ全体で精度と遅延のバランスを効果的に取る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。