[论文解读] No-Reference Video Quality Assessment using Multi-Level Spatially Pooled Features
本文提出 MLSP-VQA,一种基于大规模真实场景数据集(FlickrVid-150k)训练的无参考视频质量评估方法,利用多层级空间池化深度特征。该方法在 KonVid-1k 数据集上实现了新的 SOTA SRCC 0.83,并在跨数据集基准测试中表现出良好的泛化能力,优于以往的深度学习与手工设计方法。
Video Quality Assessment (VQA) methods have been designed with a focus on particular degradation types, usually artificially induced on a small set of reference videos. Hence, most traditional VQA methods under-perform in-the-wild. Deep learning approaches have had limited success due to the small size and diversity of existing VQA datasets, either artificial or authentically distorted. We introduce a new in-the-wild VQA dataset that is substantially larger and diverse: FlickrVid-150k. It consists of a coarsely annotated set of 153,841 videos having 5 quality ratings each, and 1600 videos with a minimum of 89 ratings each. Additionally, we propose new efficient VQA approaches (MLSP-VQA) relying on multi-level spatially pooled deep features (MLSP). They are extremely well suited for training at scale, compared to deep transfer learning approaches. Our best method MLSP-VQA-FF improves the Spearman Rank-order Correlation Coefficient (SRCC) performance metric on the standard KonVid-1k in-the-wild benchmark dataset to 0.83 surpassing the best existing deep-learning model (0.8 SRCC) and hand-crafted feature-based method (0.78 SRCC). We further investigate how alternative approaches perform under different levels of label noise, and dataset size, showing that MLSP-VQA-FF is the overall best method. Finally, we show that MLSP-VQA-FF trained on FlickrVid-150k sets the new state-of-the-art for cross-test performance on KonVid-1k and LIVE-Qualcomm with a 0.79 and 0.58 SRCC, respectively, showing excellent generalization.
研究动机与目标
- 为解决传统 VQA 方法在人工降质视频上训练导致泛化能力差的问题,创建大规模、多样化的现实场景数据集。
- 通过引入包含 153,841 个视频且具有高质量评分的 FlickrVid-150k 数据集,克服现有深度学习 VQA 模型因数据集小而受限的问题。
- 开发一种高效、可扩展的基于深度学习的 VQA 方法,在无需迁移学习的情况下实现大规模性能表现。
- 在不同标签噪声和数据集规模下评估模型的鲁棒性,确保在真实场景中的可靠性。
- 通过所提出的 MLSP-VQA 框架,在无参考 VQA 的跨数据集泛化方面建立新的 SOTA 水准。
提出的方法
- 提出一个新的真实场景 VQA 数据集 FlickrVid-150k,包含 153,841 个视频,每个视频有 5 个质量评分,另有 1,600 个视频至少拥有 89 个评分,支持大规模训练。
- 提出 MLSP-VQA,一种深度学习框架,从视频帧中提取多层级空间池化特征(MLSP),以捕捉分层的质量相关模式。
- 通过在不同感受野尺度的多个特征图上进行空间池化,增强对空间失真的鲁棒性并提升特征判别能力。
- 在无需迁移学习的情况下,使用大规模数据端到端训练 MLSP-VQA 模型,实现在多样化视频分布上的高效且可扩展的训练。
- 在池化特征之上使用回归头预测主观质量评分,通过标准回归损失进行优化。
- 在多个基准测试(包括 KonVid-1k 和 LIVE-Qualcomm)上验证性能,以评估泛化能力和鲁棒性。
实验结果
研究问题
- RQ1与现有人工或受限数据集相比,大规模、多样化的现实场景视频质量数据集是否能提升基于深度学习的 VQA 模型的泛化能力?
- RQ2所提出的 MLSP-VQA 方法在标准现实场景基准测试中,相较于现有深度学习与手工设计的 VQA 模型表现如何?
- RQ3在真实视频质量评估场景中,MLSP-VQA 对标签噪声和不同数据集规模的鲁棒性如何?
- RQ4在新引入的 FlickrVid-150k 数据集上进行训练,是否能提升在未见测试集上的跨数据集泛化性能?
- RQ5不依赖预训练模型的非迁移学习深度学习方法是否能在无参考 VQA 中实现 SOTA 性能?
主要发现
- 所提出的 MLSP-VQA-FF 模型在 KonVid-1k 基准上实现了 0.83 的斯皮尔曼等级相关系数(SRCC),优于现有最佳深度学习模型(0.8 SRCC)和手工设计方法(0.78 SRCC)。
- 在 FlickrVid-150k 上训练的 MLSP-VQA-FF 在跨数据集评估中达到新的 SOTA 水准,在 KonVid-1k 上实现 0.79 SRCC,在 LIVE-Qualcomm 上实现 0.58 SRCC。
- 该模型在所有测试条件下对标签噪声和不同数据集规模均表现出强鲁棒性,优于其他方法。
- FlickrVid-150k 的大规模与多样性使深度 VQA 模型能够无需迁移学习即可有效训练,凸显了数据规模与多样性的关键作用。
- MLSP-VQA-FF 显著优于以往方法,表明多层级空间池化能增强质量评估的特征表示能力。
- 结果证实,基于大规模真实场景数据集的可扩展端到端训练,可在 VQA 中超越基于迁移学习的方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。