QUICK REVIEW

[论文解读] Focus: Querying Large Video Datasets with Low Latency and Low Cost

Kevin Hsieh, Ganesh Ananthanarayanan|arXiv (Cornell University)|Jan 10, 2018

Advanced Neural Network Applications参考文献 42被引用 97

一句话总结

Focus 通过使用廉价、专用的 CNN 在摄取阶段、对相似对象进行聚类，并在查询时用昂贵的 GT-CNN 进行验证，从而实现对大型视频数据集的低延迟、低成本查询。

ABSTRACT

Large volumes of videos are continuously recorded from cameras deployed for traffic control and surveillance with the goal of answering "after the fact" queries: identify video frames with objects of certain classes (cars, bags) from many days of recorded video. While advancements in convolutional neural networks (CNNs) have enabled answering such queries with high accuracy, they are too expensive and slow. We build Focus, a system for low-latency and low-cost querying on large video datasets. Focus uses cheap ingestion techniques to index the videos by the objects occurring in them. At ingest-time, it uses compression and video-specific specialization of CNNs. Focus handles the lower accuracy of the cheap CNNs by judiciously leveraging expensive CNNs at query-time. To reduce query time latency, we cluster similar objects and hence avoid redundant processing. Using experiments on video streams from traffic, surveillance and news channels, we see that Focus uses 58X fewer GPU cycles than running expensive ingest processors and is 37X faster than processing all the video at query time.

研究动机与目标

激励在事后分析中对漫长视频数据集进行成本低、速度快的查询的需求。
提出一个成本感知的摄取与查询框架，其相对于真实GT-CNN在高精确度/召回率上得到保留。
开发技术（廉价摄取 CNN、top-K 索引、聚类、以及面向视频的专门化）以在降低成本和延迟的同时达到目标精度。
提供一个可调系统，根据应用需求在摄取成本与查询延迟之间进行权衡。
证明 Focus 在多个视频领域能带来显著的成本与延迟提升。

提出的方法

在摄取时使用廉价、压缩和专用的 CNN 来检测并按类别对对象建立索引。
用 CheapCNN 的 top-K 结果对每个对象建立索引以恢复召回。
使用廉价 CNN 的特征向量对相似对象进行聚类，以减少查询时对 GT-CNN 的评估数量。
在查询时使用 GT-CNN 对簇心进行分类，为簇内所有对象分配标签，从而降低延迟。
通过在常见类别上再训练简化模型来使摄取 CNN 针对每个视频流定制，创建一组小型、准确、面向流的模型。
通过选择 CheapCNN、K、Ls（流行类别）和聚类阈值 T，在摄取成本与查询延迟之间取得平衡，以满足用户定义的精确度/召回率目标。

实验结果

研究问题

RQ1如何在保持相对于 GT-CNN 的高准确度的同时实现低成本摄取以用于视频查询？
RQ2哪种廉价摄取 CNN、top-K 索引、聚类及专门化的组合在摄取成本与查询延迟之间能给出最佳权衡？
RQ3面向视频的专门化如何影响跨领域（交通、监控、新闻）的召回、精确度和性能？
RQ4聚类和基于簇心的 GT-CNN 评估是否能够在不牺牲准确性的情况下显著降低查询时的计算量？
RQ5不同目标应用中，哪些参数能最好地平衡摄取成本、查询延迟和准确性？

主要发现

Focus 在摄取成本方面比 Ingest-all 低至多达 58x，在某些情况下高达 98x。
Focus 的查询时延比 Query-all 快最多 37x。
Focus 在代表性评估中保持至少 95% 的精确度与召回率。
在 Focus 下摄取成本可从 $250/月/流降至 $4/月/流。
对 24 小时视频的查询时延可从约 1 小时降至不到 2 分钟。
专门化与 top-K 索引使在较小的 K 值下也能实现高召回（如专门化模型的 K 可小至 2–4）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。