QUICK REVIEW

[论文解读] Assessing the Quality-of-Experience of Adaptive Bitrate Video Streaming

Zhengfang Duanmu, Wentao Liu|arXiv (Cornell University)|Aug 20, 2020

Image and Video Quality Assessment参考文献 52被引用 20

一句话总结

本文介绍了WaterlooSQoE-IV，这是目前公开可用的、针对自适应比特率（ABR）视频流媒体的最大主观QoE数据库，包含1,350段真实场景下的视频流，涵盖多种内容、编码器、网络trace、ABR算法和设备。研究结果表明，改进客观QoE模型——尤其是更好地建模人类感知——对于提升ABR性能的重要性，远超过采用先进的优化或机器学习技术。

ABSTRACT

The diversity of video delivery pipeline poses a grand challenge to the evaluation of adaptive bitrate (ABR) streaming algorithms and objective quality-of-experience (QoE) models. Here we introduce so-far the largest subject-rated database of its kind, namely WaterlooSQoE-IV, consisting of 1350 adaptive streaming videos created from diverse source contents, video encoders, network traces, ABR algorithms, and viewing devices. We collect human opinions for each video with a series of carefully designed subjective experiments. Subsequent data analysis and testing/comparison of ABR algorithms and QoE models using the database lead to a series of novel observations and interesting findings, in terms of the effectiveness of subjective experiment methodologies, the interactions between user experience and source content, viewing device and encoder type, the heterogeneities in the bias and preference of user experiences, the behaviors of ABR algorithms, and the performance of objective QoE models. Most importantly, our results suggest that a better objective QoE model, or a better understanding of human perceptual experience and behaviour, is the most dominating factor in improving the performance of ABR algorithms, as opposed to advanced optimization frameworks, machine learning strategies or bandwidth predictors, where a majority of ABR research has been focused on in the past decade. On the other hand, our performance evaluation of 11 QoE models shows only a moderate correlation between state-of-the-art QoE models and subjective ratings, implying rooms for improvement in both QoE modeling and ABR algorithms. The database is made publicly available at: \url{https://ece.uwaterloo.ca/~zduanmu/waterloosqoe4/}.

研究动机与目标

为解决评估ABR流媒体算法和QoE模型时缺乏大规模、多样化且真实的主观QoE数据集的问题。
研究源内容、编码、网络条件、观看设备和ABR算法对人类感知视频质量的影响。
将11种客观QoE模型与主观评分进行对比评估，识别其在泛化能力和感知准确性方面的局限性。
探索不同主观实验方法在长时间流媒体测试中维持受试者参与度的有效性。
确定先进优化框架与改进QoE建模相比，对ABR算法性能的相对影响。

提出的方法

通过组合5个源视频、2个编码器、9个网络trace、5个ABR算法和3种观看设备（手机、HDTV、UHDTV），构建了大规模、多样化的1,350段ABR流媒体视频数据集。
通过精心设计的实验，开展了广泛的主观质量评估，收集了所有视频变体的人工意见评分。
采用非线性回归方法将客观QoE得分映射到主观评分，从而实现对模型性能的统计比较。
使用F统计量和假设检验评估不同QoE模型在预测残差方差上的差异是否具有统计显著性。
将11种客观QoE模型（包括基于码率、VQA和学习型模型）与主观评分进行对比评估。
利用中心极限定理进行统计显著性分析，以验证样本量超过50时的模型比较结果。

实验结果

研究问题

RQ1源内容、编码、网络条件和观看设备如何相互作用，影响ABR流媒体中的主观QoE？
RQ2在真实流媒体场景中，传统客观指标（如平均码率）与人类感知QoE的相关性有多大？
RQ3最先进的学习型QoE模型在多样化流媒体条件下的泛化能力，相较于传统模型如何？
RQ4改进QoE建模与先进ABR算法设计相比，对整体用户体验的相对影响是什么？
RQ5是否可以优化主观实验方法，以在长时间流媒体评估中保持受试者注意力和结果可靠性？

主要发现

KSQI模型在WaterlooSQoE-IV数据集上表现最佳，显著优于所有其他客观QoE模型，预测主观评分的性能更优。
最先进的学习型QoE模型（如VideoATLAS和P.1203）在新数据集上的表现反而不如线性Bentaleb2016模型，表明其在多样化流媒体条件下的泛化能力较差。
客观QoE模型与主观评分的相关性仅处于中等水平，凸显在感知建模方面仍有巨大改进空间。
研究表明，对人类视觉系统（HVS）和感知行为的深入理解，对于提升ABR性能的重要性，远超过先进优化框架或带宽预测器。
卡顿（rebuffering）和质量自适应体验与播放质量显著相互作用，能够整合这三者（如KSQI）的模型表现明显更优。
统计显著性检验确认，KSQI始终优于所有其他模型，所有成对比较均显示其具有统计显著优势（p < 0.05）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。