QUICK REVIEW

[論文レビュー] Enhancing Blind Video Quality Assessment with Rich Quality-aware Features

Wei Sun, Linhan Cao|arXiv (Cornell University)|May 14, 2024

Image and Video Quality Assessment被引用数 5

ひとこと要約

この論文は、ベースラインBVQAモデル（SimpleVQA）をBIQAとBVQAモデル（LIQE、Q-Align、FAST-VQA）からの豊富な品質意識フィーチャーで強化し、ソーシャルメディア動画の品質評価を改善し、UGCデータセットで最先端の結果を達成し、CVPR NTIRE 2024 Short-form UGC Video Quality Assessment Challengeで優勝。

ABSTRACT

Blind video quality assessment (BVQA) is a highly challenging task due to the intrinsic complexity of video content and visual distortions, especially given the high popularity of social media videos, which originate from a wide range of sources, and are often processed by various compression and enhancement algorithms. While recent BVQA and blind image quality assessment (BIQA) studies have made remarkable progress, their models typically perform well on the datasets they were trained on but generalize poorly to unseen videos, making them less effective for accurately evaluating the perceptual quality of diverse social media videos. In this paper, we propose Rich Quality-aware features enabled Video Quality Assessment (RQ-VQA), a simple yet effective method to enhance BVQA by leveraging rich quality-aware features extracted from off-the-shelf BIQA and BVQA models. Our approach exploits the expertise of existing quality assessment models within their trained domains to improve generalization. Specifically, we design a multi-source feature framework that integrates:(1) Learnable spatial features} from a base model fine-tuned on the target VQA dataset to capture domain-specific quality cues; (2) Temporal motion features from the fast pathway of SlowFast pre-trained on action recognition datasets to model motion-related distortions; (3) Spatial quality-aware features from BIQA models trained on diverse IQA datasets to enhance frame-level distortion representation; and (4) Spatiotemporal quality-aware features from a BVQA model trained on large-scale VQA datasets to jointly encode spatial structure and temporal dynamics. These features are concatenated and fed into a multi-layer perceptron (MLP) to regress them into quality scores. Experimental results demonstrate that our model achieves state-of-the-art performance on three public social media VQA datasets.

研究の動機と目的

ソーシャルメディア（UGC）動画の多様な歪みと処理ワークフローに対するBVQAのギャップを埋める。
BIQAとBVQAモデルから事前学習済みの品質認識特徴を活用し、特徴の豊かさと頑健性を高める。
LIQE、Q-Align、FAST-VQAの3つの補助特徴をSimpleVQAベースのフレームワークに統合する。
KVQ、TaoLive、LIVE-WCデータセットで頑健性を示し、最先端の結果を達成する。
CVPR NTIRE 2024 Short-form UGC Video Quality Assessment Challengeで1位を獲得する。

提案手法

ベースモデル：Swin Transformer-B 空間解析器とSlowFast 時間経路を備えたSimpleVQAを、視点誘導的空間特徴のためのMHSAで拡張。
LIQE特徴：9つのシーンカテゴリ、11の歪みタイプ、5つの品質レベルに基づくコサイン類似度を用いた495次元のフレームレベル特徴。
Q-Align特徴：フレームレベルの品質表現のためのQ-Alignモデルの最後の層の隠れ表現。
FAST-VQA特徴：FAST-VQAパイプラインを用いて Grid ミニキューブサンプリングで抽出した時空間品質特徴。
特徴フュージョン：空間・時間・LIQE・Q-Align・FAST-VQA特徴を1つの表現に結合。
回帰：結合特徴を2層MLPで局所品質推定にマップ；グローバル品質は主要フレームで平均プール。
損失：予測MOSと真のMOSの整合性を最適化するためのPearsonベースPLCC損失。

実験結果

リサーチクエスチョン

RQ1BIQAとBVQAモデルからの品質認識特徴を統合することは、ソーシャルメディア動画のBVQA性能を向上させるか？
RQ2提案されたフュージョンフレームワークは、KVQ、TaoLive、LIVE-WCの公開ソーシャルメディアVQAデータセットで、強力なベースラインと比較してどの程度性能を発揮するか？
RQ3各補助特徴（LIQE、Q-Align、FAST-VQA）の全体的な性能への寄与はどの程度か？
RQ4顕著な社会メディア歪みに対して、視点誘導的MHSAを加えることで空間品質表現は改善されるか？

主な発見

BVQA 手法	KVQ Validation SRCC	KVQ Validation PLCC	KVQ Test SRCC	KVQ Test PLCC	TaoLive SRCC	TaoLive PLCC	LIVE-WC SRCC	LIVE-WC PLCC
NIQE	0.239	0.241	0.272	0.281	0.331	0.327	0.245	0.241
BRISQUE	0.472	0.480	0.489	0.493	0.764	0.767	0.794	0.797
TLVQM	0.490	0.509	0.511	0.524	0.869	0.873	0.827	0.831
VIDEVAL	0.369	0.639	0.425	0.652	0.889	0.892	0.822	0.820
RAPIQUE	0.803	0.801	0.815	0.818	0.841	0.838	0.867	0.866
VSFA	0.830	0.834	0.843	0.840	0.904	0.903	0.857	0.857
SimpleVQA	0.874	0.875	0.881	0.877	0.916	0.915	0.913	0.920
FAST-VQA	0.864	0.865	0.871	0.870	0.876	0.881	0.849	0.852
Q-Align	0.703	0.701	0.664	0.693	0.742	0.722	0.739	0.714
Proposed	0.914	0.918	0.926	0.924	0.912	0.918	0.955	0.955

提案モデルはKVQ Validation、KVQ Test、TaoLive、LIVE-WCデータセットで最高の性能を実現（Table 1の最高SRCC/PLCC）。
NTIRE 2024 Short-form UGC Video Quality Assessment Challengeでは、他のチームを抑えた1位（Table 2）。
アブレーション研究では、Q-Align、LIQE、FAST-VQAのいずれかを除去すると性能が低下し、相補的な価値を確認（Table 3）。
リッチな品質認識特徴をSimpleVQAと統合することで、多様なコンテンツと処理ワークフローによりソーシャルメディアVQAタスクで堅牢な改善を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。