QUICK REVIEW

[논문 리뷰] Focus: Querying Large Video Datasets with Low Latency and Low Cost

Kevin Hsieh, Ganesh Ananthanarayanan|arXiv (Cornell University)|2018. 01. 10.

Advanced Neural Network Applications참고 문헌 42인용 수 97

한 줄 요약

Focus는 저렴한 특수 CNN으로 대용량 비디오 데이터 세트를 빠르게 도입하고, 비슷한 객체를 클러스터링하며, 질의 시 비용이 많이 드는 GT-CNN으로 검증하여 저지연, 저비용으로 질의할 수 있게 한다.

ABSTRACT

Large volumes of videos are continuously recorded from cameras deployed for traffic control and surveillance with the goal of answering "after the fact" queries: identify video frames with objects of certain classes (cars, bags) from many days of recorded video. While advancements in convolutional neural networks (CNNs) have enabled answering such queries with high accuracy, they are too expensive and slow. We build Focus, a system for low-latency and low-cost querying on large video datasets. Focus uses cheap ingestion techniques to index the videos by the objects occurring in them. At ingest-time, it uses compression and video-specific specialization of CNNs. Focus handles the lower accuracy of the cheap CNNs by judiciously leveraging expensive CNNs at query-time. To reduce query time latency, we cluster similar objects and hence avoid redundant processing. Using experiments on video streams from traffic, surveillance and news channels, we see that Focus uses 58X fewer GPU cycles than running expensive ingest processors and is 37X faster than processing all the video at query time.

연구 동기 및 목표

저비용이면서도 후속 분석을 위한 긴 비디오 데이터 세트에 대한 저렴하고 빠른 질의의 필요성을 제시한다.
GT-CNN에 비해 높은 정밀도/재현율을 유지하는 비용 인식적 수집 및 질의 프레임워크를 제안한다.
저렴한 수집 CNN, top-K 인덱싱, 클러스터링, 비디오 특화 기법을 개발하여 목표 정확도를 비용과 지연 시간을 줄인 채로 달성한다.
응용 필요에 따라 수집 비용과 질의 지연 시간을 조정할 수 있는 tunable 시스템을 제공한다.
Focus가 다수의 비디오 도메인에서 상당한 비용 및 지연 시간 개선을 가져온다는 것을 입증한다.

제안 방법

도입 시 저렴하고 압축되었으며 특수화된 CNN을 사용하여 클래스별로 객체를 감지하고 인덱싱한다.
각 객체를 CheapCNNs의 top-K 결과로 인덱싱하여 재현율을 회복한다.
저렴한 CNN 특징 벡터를 사용하여 비슷한 객체를 클러스터링하고 질의 시점의 GT-CNN 평가 수를 줄인다.
질의 시점에 GT-CNN으로 클러스터 중심을 분류하여 클러스터 내 모든 객체에 라벨을 할당하고 대기 시간을 줄인다.
자주 나타나는 클래스에 대해 축소된 모델을 재학습시켜 각 비디오 스트림에 대한 ingest CNN을 특별화하고 작고 정확하며 스트림 특화된 모델 세트를 만든다.
사용자 정의된 정밀도/재현율 목표를 달성하기 위해 CheapCNN, K, Ls(인기 클래스), 클러스터링 임계값 T를 선택하여 도입 비용과 질의 대기 시간을 균형 잡는다.

실험 결과

연구 질문

RQ1비디오 질의에 대해 GT-CNN에 비해 낮은 도입 비용으로 높은 정확도를 어떻게 유지할 수 있는가?
RQ2도입 비용과 질의 지연 시간 사이의 최적의 트레이드오프를 제공하는 저렴한 수집 CNN, top-K 인덱싱, 클러스터링 및 특수화의 조합은 무엇인가?
RQ3비디오 특화 특수화가 도메인(교통, 감시, 뉴스) 전반의 재현율, 정밀도, 성능에 어떤 영향을 미치는가?
RQ4클러스터링 및 중심점 기반 GT-CNN 평가가 정확도를 희생하지 않으면서 질의 시간 계산을 크게 줄일 수 있는가?
RQ5다른 대상 응용 프로그램에 대해 도입 비용, 질의 지연 시간 및 정확도 간의 균형을 가장 잘 맞추는 매개변수는 무엇인가?

주요 결과

Focus는 Ingest-all 대비 최대 58배 저렴한 도입 비용과 경우에 따라 최대 98배의 절감을 달성한다.
Focus는 질의 지연 시간에서 Query-all 대비 최대 37배 빠르다.
대표적 평가에서 Focus는 최소 95%의 정밀도와 재현율을 유지한다.
도입 비용이 Focus를 사용하면 스트림당 월 $250에서 $4로 하락할 수 있다.
24시간 비디오 질의 지연 시간은 약 1시간에서 2분 이하로 감소할 수 있다.
특수화 및 top-K 인덱싱은 특수화된 모델에서 K 값을 2–4 정도로도 높은 재현율을 달성하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.