Skip to main content
QUICK REVIEW

[논문 리뷰] DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval

Giorgos Kordopatis-Zilos, Christos Tzelepis|arXiv (Cornell University)|2022. 07. 14.
Advanced Image and Video Retrieval Techniques참고 문헌 63인용 수 2
한 줄 요약

이 논문은 고성능 교사 모델에서 다양한 정확도-효율성 트레이드오프를 가진 다수의 학생 네트워크를 훈련하는 지식 증류 프레임워크인 DnS(Distill-and-Select)를 제안한다. 테스트 시점에 선택기 네트워크가 쿼리를 가장 적절한 학생 모델로 동적으로 라우팅함으로써 검색 성능, 속도, 저장소를 균형 잡으며, FIVR-200K에서 성능이 0.041 mAP 감소하는 데 그치지만 최대 55배 빠른 검색과 교사 모델 대비 240배 적은 저장소를 달성한다.

ABSTRACT

In this paper, we address the problem of high performance and computationally efficient content-based video retrieval in large-scale datasets. Current methods typically propose either: (i) fine-grained approaches employing spatio-temporal representations and similarity calculations, achieving high performance at a high computational cost or (ii) coarse-grained approaches representing/indexing videos as global vectors, where the spatio-temporal structure is lost, providing low performance but also having low computational cost. In this work, we propose a Knowledge Distillation framework, called Distill-and-Select (DnS), that starting from a well-performing fine-grained Teacher Network learns: a) Student Networks at different retrieval performance and computational efficiency trade-offs and b) a Selector Network that at test time rapidly directs samples to the appropriate student to maintain both high retrieval performance and high computational efficiency. We train several students with different architectures and arrive at different trade-offs of performance and efficiency, i.e., speed and storage requirements, including fine-grained students that store/index videos using binary representations. Importantly, the proposed scheme allows Knowledge Distillation in large, unlabelled datasets -- this leads to good students. We evaluate DnS on five public datasets on three different video retrieval tasks and demonstrate a) that our students achieve state-of-the-art performance in several cases and b) that the DnS framework provides an excellent trade-off between retrieval performance, computational speed, and storage space. In specific configurations, the proposed method achieves similar mAP with the teacher but is 20 times faster and requires 240 times less storage space. The collected dataset and implementation are publicly available: https://github.com/mever-team/distill-and-select.

연구 동기 및 목표

  • 정밀도-효율성 트레이드오프 문제를 정밀도-세분화된 방법과 거시적 방법의 장점을 융합하여 해결한다.
  • 고성능 검색 정확도를 유지하면서 계산 및 저장 비용을 크게 줄이는 확장 가능한 프레임워크를 개발한다.
  • 비용이 많이 드는 레이블링이 필요 없이 대규모 비정렬 영상 데이터셋을 활용해 고품질의 학생 모델을 훈련할 수 있도록 지식 증류를 구현한다.
  • 유사도 신뢰도 기반으로 추론 시점에 가장 적합한 학생 모델을 선택기 네트워크가 지능적으로 쿼리를 라우팅하도록 설계한다.
  • 속도, 정확도, 저장소 간 최적의 트레이드오프를 확보하면서 여러 영상 검색 벤치마크에서 최신 기술 수준의 성능을 달성한다.

제안 방법

  • 강력한 정밀도-세분화된 교사 모델에서 지식 증류를 통해 다양한 아키텍처와 복잡도 수준을 가진 다수의 학생 네트워크를 훈련한다.
  • 저저장소·고속 검색을 위한 이진화 학생과 고정확도를 위한 어텐션 기반 학생과 같은 특수화된 학생 모델을 포함한다.
  • 거시적 및 정밀도-세분화된 유사도 예측 간 괴리도를 사용해 선택기 네트워크를 훈련하여, 더 정확하지만 비용이 많이 드는 정밀도-세분화된 학생을 언제 사용할지 결정한다.
  • 추론 시점에 선택기를 활용해 각 쿼리를 가장 적절한 학생 모델로 라우팅함으로써 계산을 최소화하면서도 검색 품질을 유지한다.
  • 비용이 많이 드는 레이블링에 의존하지 않고 대규모 비정렬 데이터셋을 활용해 증류를 수행함으로써 효과적인 학생 모델 훈련을 가능하게 한다.
  • 정밀도-세분화된 학생 모델의 시공간적 구조와 거시적·이진화 변형의 압축 표현을 유지하는 데 최적화된 증류 과정을 설계한다.

실험 결과

연구 질문

  • RQ1대규모 비정렬 영상 데이터셋에 지식 증류를 효과적으로 적용하여 효율적이고 정확한 검색 모델을 훈련시킬 수 있는가?
  • RQ2동적 라우팅 메커니즘이 영상 검색에서 검색 정확도와 계산 효율성 간 균형을 어떻게 향상시킬 수 있는가?
  • RQ3단일 교사 모델에서 다수의 학생 네트워크를 훈련할 때 모델 정확도, 추론 속도, 저장 요구사항 간 최적의 트레이드오프는 무엇인가?
  • RQ4선택기 네트워크는 거시적 유사도 점수가 부족한 경우를 신뢰성 있게 식별하고 정밀도-세분화된 모델을 다시 정렬하기 위해 이를 유도할 수 있는가?
  • RQ5증류된 학생 모델이 표준 영상 검색 벤치마크에서 성능과 효율성 측면에서 기존 최신 기술 수준의 방법들을 얼마나 뛰어나게 할 수 있는가?

주요 결과

  • DnS 프레임워크는 FIVR-200K, TACoS, ActivityNet을 포함한 여러 영상 검색 벤치마크에서 최신 기술 수준의 성능을 달성한다.
  • FIVR-200K에서 이진화 학생을 포함한 DnS5% 구성은 ViSiL 교사 모델 대비 55배 빠른 검색 속도와 240배 낮은 저장소를 확보했으며, 평균 평균 정밀도(mAP)는 0.041 감소에 그친다.
  • 30% 재정렬을 적용한 DnS 프레임워크는 두 개의 데이터셋에서 ViSiL 교사 모델보다 뛰어난 성능을 보이며, 계산 비용이 허용 가능한 경우 동적 라우팅이 정확도를 향상시킨다는 것을 입증한다.
  • 거시적 유사도 학생은 거의 즉각적인 쿼리 처리를 가능하게 하며, 정밀도-세분화된 모델 대비 수개의 주기수만큼 더 빠른 검색 시간을 확보하지만 정확도는 낮다.
  • 정밀도-세분화된 어텐션 학생은 네 개의 평가 데이터셋 중 두 곳에서 다른 학생들을 능가하며, 더 높은 계산 요구사항에도 불구하고 높은 정확도를 달성한다.
  • 선택기 네트워크는 모호한 쿼리에만 고비용의 정밀도-세분화된 모델을 사용하도록 라우팅하여 불필요한 사용을 줄이며, 성능 손실 없이도 높은 효율성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.