[論文レビュー] VQPP: Video Query Performance Prediction Benchmark
VQPP は、コンテンツベースのビデオ検索(CBVR)におけるクエリ性能予測のための初のベンチマークで、2 つのデータセットと 2 つの CBVR システムにわたり事前および事後の予測手法を評価し、LLM を用いたクエリ再形成のユースケースを示します。
Query performance prediction (QPP) is an important and actively studied information retrieval task, having various applications, such as query reformulation, query expansion, and retrieval system selection, among many others. The task has been primarily studied in the context of text and image retrieval, whereas QPP for content-based video retrieval (CBVR) remains largely underexplored. To this end, we propose the first benchmark for video query performance prediction (VQPP), comprising two text-to-video retrieval datasets and two CBVR systems, respectively. VQPP contains a total of 56K text queries and 51K videos, and comes with official training, validation and test splits, fostering direct comparisons and reproducible results. We explore multiple pre-retrieval and post-retrieval performance predictors, creating a representative benchmark for future exploration of QPP in the video domain. Our results show that pre-retrieval predictors obtain competitive performance, enabling applications before performing the retrieval step. We also demonstrate the applicability of VQPP by employing the best performing pre-retrieval predictor as reward model for training a large language model (LLM) on the query reformulation task via direct preference optimization (DPO). We release our benchmark and code at https://github.com/AdrianLutu/VQPP.
研究の動機と目的
- コンテンツベースのビデオ検索(CBVR)におけるクエリ性能予測の初の標準化ベンチマークを確立する。
- 多様なビデオデータセットと検索システムにわたるグランドトゥルース、分割、および評価プロトコルを提供する。
- 言語的特徴から深層の事前予測および事後予測モデルまで、広範な予測子を評価する。
- LLM を用いたクエリ再形成の報酬モデルとして QPP 予測子を用いることで実用的な応用を実証する。
提案手法
- MSR-VTT および VATEX データセットから 56K のテキストクエリと 51K のビデオを対象とした VQPP を構築し、2 つの CBVR システム(GRAM と VAST)で評価する。
- 再現可能な QPP 評価のために、4 つの評価シナリオ(2 dataset × 2 retrieval system)と事前計算済みのリトリーブ結果・スコアを提供する。
- 事前計算(言語ベースライン、微調整済み BERT、Few-shot の Llama-3.1)および事後計算(微調整済み CLIP、CLIP4Clip、Correlation CNN)カテゴリーの予測子を訓練・評価する。
- 予測難易度と地真実リトリーブ指標との間の Pearson ρ および Kendall τ の相関で QPP の性能を測定する。地真実リトリーブは Reciprocal Rank および Recall@K を使用する。
- Fine-tuned BERT の QPP 予測子を Direct Preference Optimization (DPO) の報酬モデルとして用い、Phi-4-mini-instruct の再形成の訓練に用いることでクエリ再形成を実証する。
実験結果
リサーチクエスチョン
- RQ1事前計算の予測子は、CBVR システム間(GRAM 対 VAST)で事後計算の予測子と比較して、ビデオ QPP において同等以上を達成できるか?
- RQ2QPP 予測子は、2 つの異なるビデオデータセットと2つの検索モデル間で一般化できるか?
- RQ3深層学習ベースの予測子(例:BERT、CLIP)と伝統的な言語特徴のいずれが、CBVR における QPP の精度に影響を与えるか?
- RQ4QPP 予測子は、検索性能を向上させるためのクエリ再形成を効果的に導くことができるか?
主な発見
- 深い事前計算予測子は、シナリオ全体で事後モデルを一貫して上回る。
- 微調整済み BERT は、すべての評価シナリオと相関指標でトップの性能を達成する。
- VATEX は MSR-VTT より QPP 相関が低く、データセット依存の難易度の差を示唆する。
- 事前計算予測子は、リトリーブシステム(GRAM 対 VAST)への感度が限定的である。
- Few-shot の Llama-3.1-8B はショット数を増やすと改善するが、このベンチマークでは BERT より強力ではない。
- CLIP ベースの事後予測子は、このタスクで平坦な CLIP ベースラインより劣る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。