[论文解读] Learning to Predict Streaming Video QoE: Distortions, Rebuffering and Memory
本文提出 Video ATLAS,一种机器学习框架,通过整合视频质量、卡顿情况和基于记忆的特征,预测流媒体视频的体验质量(QoE)。在 LIVE-Netflix 数据集上进行训练后,该框架在预测回顾性与连续时间 QoE 方面均优于当前最先进指标,在多个数据集上表现出色,SROCC 最高达 0.9090,LCC 最高为 0.8963,展现出强大的泛化能力。
Mobile streaming video data accounts for a large and increasing percentage of wireless network traffic. The available bandwidths of modern wireless networks are often unstable, leading to difficulties in delivering smooth, high-quality video. Streaming service providers such as Netflix and YouTube attempt to adapt their systems to adjust in response to these bandwidth limitations by changing the video bitrate or, failing that, allowing playback interruptions (rebuffering). Being able to predict end user' quality of experience (QoE) resulting from these adjustments could lead to perceptually-driven network resource allocation strategies that would deliver streaming content of higher quality to clients, while being cost effective for providers. Existing objective QoE models only consider the effects on user QoE of video quality changes or playback interruptions. For streaming applications, adaptive network strategies may involve a combination of dynamic bitrate allocation along with playback interruptions when the available bandwidth reaches a very low value. Towards effectively predicting user QoE, we propose Video Assessment of TemporaL Artifacts and Stalls (Video ATLAS): a machine learning framework where we combine a number of QoE-related features, including objective quality features, rebuffering-aware features and memory-driven features to make QoE predictions. We evaluated our learning-based QoE prediction model on the recently designed LIVE-Netflix Video QoE Database which consists of practical playout patterns, where the videos are afflicted by both quality changes and rebuffering events, and found that it provides improved performance over state-of-the-art video quality metrics while generalizing well on different datasets. The proposed algorithm is made publicly available at http://live.ece.utexas.edu/research/Quality/VideoATLAS release_v2.rar.
研究动机与目标
- 解决现有 QoE 模型在流媒体应用中无法联合建模视频质量变化与卡顿事件的问题。
- 开发一种统一的、以感知为导向的 QoE 预测框架,考虑近期效应和记忆效应等认知因素。
- 通过整合客观视频质量指标、卡顿统计量和基于记忆的特征,提升 QoE 预测的准确性。
- 构建一个可泛化的模型,在包括具有实际播放模式的数据集在内的多种数据集上均表现良好。
- 为 Netflix 和 YouTube 等流媒体服务提供感知优化的网络资源分配策略。
提出的方法
- 该框架结合三种特征类型:客观视频质量(VQA)、卡顿感知特征(R2)和基于记忆的特征(M 或 M_stall)。
- 采用基于学习的方法,使用支持向量回归(SVR)、岭回归(Ridge)和套索回归(Lasso)等回归器,将特征映射到主观 QoE 分数。
- 特征来源于具有动态码率变化和卡顿事件的视频序列,反映真实世界的流媒体条件。
- 模型在 LIVE-Netflix 视频 QoE 数据库上进行训练,该数据库包含回顾性和连续时间的主观质量评估。
- 通过 Waterloo 数据集对模型超参数进行优化,以提升泛化能力,即使在不同数据集上进行训练时亦然。
- 该框架设计简洁且可解释,优先采用线性回归器与关键感知特征,以减少过拟合。
实验结果
研究问题
- RQ1统一的 QoE 预测模型能否有效结合视频质量、卡顿情况和记忆效应,从而提升预测准确性?
- RQ2与忽略认知因素的模型相比,引入基于记忆的特征对 QoE 预测性能有何影响?
- RQ3Video ATLAS 在不同数据集(如 LIVE-Netflix 和 Waterloo)之间的泛化能力如何?
- RQ4客观质量指标(如 SSIM、MS-SSIM)与特征集的不同组合,对预测性能的影响程度如何?
- RQ5在需要泛化能力时,使用可解释特征的简单学习模型能否优于复杂且高度优化的模型(如 SQI)?
主要发现
- 当在 LIVE-Netflix 数据集上训练并在 Waterloo 数据集上测试时,Video ATLAS 在 Waterloo 数据集上实现了 0.9090 的斯皮尔曼等级相关系数(SROCC)和 0.8963 的皮尔逊线性相关系数(LCC),优于 SQI 及其他最先进模型。
- 在 LIVE-Netflix 数据集上测试时,Video ATLAS 使用 SSIM 作为 VQA 特征和 Lasso 回归,实现了 0.8203 的 SROCC 和 0.7813 的 LCC,表明其在训练数据上的强大性能。
- 该模型泛化能力出色:即使在 LIVE-Netflix 上训练并在 Waterloo 上测试,其性能仍优于 SQI,而 SQI 在 LIVE-Netflix 数据集上表现出较差的泛化能力。
- 简单回归器(如 Lasso 和 SVR)与三种核心特征(VQA、M_stall、R2)结合,表现优于树基模型,表明其具有更强的鲁棒性并减少了过拟合。
- SSIM 与 Video ATLAS 的结合在 Waterloo 数据集上实现了最高的 SROCC(0.9090)和 LCC(0.8963),甚至超越了 SQI 与 SSIM 结合的表现。
- 当在较小数据集上测试时,该模型的性能仅受限于所用特征的数量,表明扩展特征集可进一步提升预测能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。