Skip to main content
QUICK REVIEW

[논문 리뷰] VQPP: Video Query Performance Prediction Benchmark

Adrian Catalin Lutu, Eduard Poesina|arXiv (Cornell University)|2026. 02. 19.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

VQPP는 콘텐츠 기반 비디오 검색에서 질의 성능 예측을 위한 최초의 벤치마크로, 두 개의 데이터셋과 두 개의 CBVR 시스템에 걸쳐 사전-검색 및 사후-검색 예측기를 평가하고, LLM을 활용한 질의 재구성의 활용 사례를 보여준다.

ABSTRACT

Query performance prediction (QPP) is an important and actively studied information retrieval task, having various applications, such as query reformulation, query expansion, and retrieval system selection, among many others. The task has been primarily studied in the context of text and image retrieval, whereas QPP for content-based video retrieval (CBVR) remains largely underexplored. To this end, we propose the first benchmark for video query performance prediction (VQPP), comprising two text-to-video retrieval datasets and two CBVR systems, respectively. VQPP contains a total of 56K text queries and 51K videos, and comes with official training, validation and test splits, fostering direct comparisons and reproducible results. We explore multiple pre-retrieval and post-retrieval performance predictors, creating a representative benchmark for future exploration of QPP in the video domain. Our results show that pre-retrieval predictors obtain competitive performance, enabling applications before performing the retrieval step. We also demonstrate the applicability of VQPP by employing the best performing pre-retrieval predictor as reward model for training a large language model (LLM) on the query reformulation task via direct preference optimization (DPO). We release our benchmark and code at https://github.com/AdrianLutu/VQPP.

연구 동기 및 목표

  • 콘텐츠 기반 비디오 검색(CBVR)에서 질의 성능 예측을 위한 최초의 표준화된 벤치마크를 확립한다.
  • 다양한 비디오 데이터셋과 검색 시스템에 걸친 실제 ground-truth, 데이터 분할 및 평가 프로토콜을 제공한다.
  • 언어적 특징에서부터 심층 사전-검색 및 사후-검색 모델에 이르는 광범위한 예측기를 평가한다.
  • LLM을 이용한 질의 재구성을 위한 보상 모델로 QPP 예측기를 사용하여 실용적인 응용을 시연한다.

제안 방법

  • MSR-VTT 및 VATEX 데이터셋으로 56K개의 텍스트 질의와 51K개의 비디오를 갖춘 VQPP를 구성하고 두 개의 CBVR 시스템(GRAM 및 VAST)에서 평가한다.
  • 재현 가능한 QPP 평가를 위해 4개의 평가 시나리오(2개 데이터셋 × 2개 검색 시스템)와 미리 계산된 검색 결과 및 점수를 제공한다.
  • 사전 검색(pre-retrieval) 영역에서 언어 기반 베이스라인, 미세조정된 BERT, 소샷(Llama-3.1) 등과 사후 검색(post-retrieval) 영역에서 미세조정된 CLIP, CLIP4Clip, Correlation CNN 등의 예측기를 학습하고 평가한다.
  • 예상 난이도와 실제 검색 지표 간의 피어슨 ρ 및 켄덜 τ 상관관계를 사용해 QPP 성능을 측정한다; 실제 검색은 Reciprocal Rank 및 Recall@K를 사용한다.
  • 정밀 조정된 BERT QPP 예측기를 Direct Preference Optimization(DPO)의 보상 모델로 사용하여 Phi-4-mini-instruct를 재학습시켜 질의 재구성 시연한다.

실험 결과

연구 질문

  • RQ1사전 검색 예측기가 CBVR 시스템 전반에서 비디오 QPP에 대해 사후 검색 예측기와 동등하거나 더 우수할 수 있는가?
  • RQ2QPP 예측기는 두 개의 서로 다른 비디오 데이터셋과 두 개의 검색 모델에서 어떻게 일반화되는가?
  • RQ3CBVR에서 심층 학습 기반 예측기(BERT, CLIP 등) 사용이 전통적 언어 특징에 비해 QPP 정확도에 어떤 영향을 미치는가?
  • RQ4QPP 예측기가 질의 재구성의 효과적인 가이드를 제공해 검색 성능을 개선할 수 있는가?

주요 결과

  • 깊은 사전-검색 예측기가 모든 시나리오에서 VQPP에서 일관되게 사후-검색 모델보다 우수하다.
  • 미세조정된 BERT가 모든 평가 시나리오 및 상관관계 척도에서 최고 성능을 달성한다.
  • VATEX는 MSR-VTT보다 QPP 상관관계가 낮아 데이터셋 의존적 난이도 차이를 시사한다.
  • 사전 검색 예측기는 검색 시스템(GRAM 대비 VAST)에 대한 민감도가 제한적이다.
  • 소샷 Llama-3.1-8B는 샷이 많아질수록 성능이 개선되지만 이 벤치마크에서 여전히 BERT보다 약하다.
  • CLIP 기반의 사후-검색 예측기가 일반 CLIP 기본보다 성능이 떨어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.