QUICK REVIEW

[論文レビュー] Learning to Predict Streaming Video QoE: Distortions, Rebuffering and Memory

Christos G. Bampis, Alan C. Bovik|arXiv (Cornell University)|Mar 2, 2017

Image and Video Quality Assessment参考文献 35被引用数 27

ひとこと要約

この論文では、動画品質、再バッファリング、メモリ駆動型特徴を統合することで、ストリーミング動画の品質体験（QoE）を予測する機械学習フレームワーク、Video ATLASを提案する。LIVE-Netflixデータセットで学習させた結果、レトロスペクティブおよび連続時間のQoE予測において、最先端の指標を上回り、高SROCC（最大0.9090）およびLCC（最大0.8963）を示し、さまざまなデータセットにわたる優れた汎用性を示した。

ABSTRACT

Mobile streaming video data accounts for a large and increasing percentage of wireless network traffic. The available bandwidths of modern wireless networks are often unstable, leading to difficulties in delivering smooth, high-quality video. Streaming service providers such as Netflix and YouTube attempt to adapt their systems to adjust in response to these bandwidth limitations by changing the video bitrate or, failing that, allowing playback interruptions (rebuffering). Being able to predict end user' quality of experience (QoE) resulting from these adjustments could lead to perceptually-driven network resource allocation strategies that would deliver streaming content of higher quality to clients, while being cost effective for providers. Existing objective QoE models only consider the effects on user QoE of video quality changes or playback interruptions. For streaming applications, adaptive network strategies may involve a combination of dynamic bitrate allocation along with playback interruptions when the available bandwidth reaches a very low value. Towards effectively predicting user QoE, we propose Video Assessment of TemporaL Artifacts and Stalls (Video ATLAS): a machine learning framework where we combine a number of QoE-related features, including objective quality features, rebuffering-aware features and memory-driven features to make QoE predictions. We evaluated our learning-based QoE prediction model on the recently designed LIVE-Netflix Video QoE Database which consists of practical playout patterns, where the videos are afflicted by both quality changes and rebuffering events, and found that it provides improved performance over state-of-the-art video quality metrics while generalizing well on different datasets. The proposed algorithm is made publicly available at http://live.ece.utexas.edu/research/Quality/VideoATLAS release_v2.rar.

研究の動機と目的

ストリーミングアプリケーションにおける動画品質の変化と再バッファリングイベントを同時にモデル化できない既存のQoEモデルのギャップを埋める。
記憶や最近性といった認知的要因を考慮した統合的で知覚に基づくQoE予測フレームワークを構築する。
客観的動画品質指標、再バッファリング統計、メモリに配慮した特徴を統合することで、QoE予測の精度を向上させる。
実際の再生パターンを持つデータセットを含め、多様なデータセットにわたる汎用性の高いモデルを構築する。
Netflix や YouTube などのストリーミングサービスにおける知覚最適化されたネットワークリソース割り当て戦略を可能にする。

提案手法

3種類の特徴タイプを統合する：客観的動画品質（VQA）、再バッファリングに配慮した特徴（R2）、メモリ駆動型特徴（M または M_stall）。
SVR、リッジ回帰、ラッソ回帰などの学習ベースのアプローチを用い、特徴から主観的QoEスコアへのマッピングを実現する。
動的ビットレート変化と再バッファリングイベントを伴う動画シーケンスから特徴を抽出し、実世界のストリーミング環境を反映する。
モデルは、レトロスペクティブおよび連続時間の主観的品質評価が含まれるLIVE-Netflix Video QoE Databaseで学習される。
ハイパーパrameterは、一般化性能を向上させるためにWaterlooデータセットを用いて最適化される。これは、異なるデータセットで学習された場合でも有効である。
モデルはシンプルかつ説明可能であるように設計されており、過学習を抑えるために、重要な知覚的特徴を用いた線形回帰モデルを優先する。

実験結果

リサーチクエスチョン

RQ1統合的QoE予測モデルは、動画品質、再バッファリング、メモリ効果を効果的に統合することで、予測精度を向上させることができるか？
RQ2認知的要因を無視するモデルと比較して、メモリ駆動型特徴を含めることでQoE予測性能はどの程度向上するか？
RQ3Video ATLASは、LIVE-NetflixやWaterlooのような異なるデータセットにどの程度一般化できるか？
RQ4SSIM や MS-SSIM などの客観的品質指標と、特徴セットの異なる組み合わせが、予測性能にどの程度影響を与えるか？
RQ5解釈可能な特徴を用いたシンプルな学習モデルは、一般化が必要な状況で、SQI や他の高度に最適化されたモデルを上回ることができるか？

主な発見

LIVE-Netflixで学習し、Waterlooデータセットでテストした場合、Video ATLASはSpearman順位相関係数（SROCC）0.9090、線形相関係数（LCC）0.8963を達成し、SQI や他の最先端モデルを上回った。
LIVE-Netflixデータセットでテストした場合、Video ATLASはSSIMをVQA特徴として用い、ラッソ回帰を適用することで、SROCC 0.8203、LCC 0.7813を達成し、学習データ上で優れた性能を示した。
モデルは良好に一般化された：LIVE-Netflixで学習し、Waterlooでテストした場合でも、SQI よりも優れた性能を示した。SQIはLIVE-Netflixデータセットへの一般化が悪かった。
ラッソやSVRといったシンプルな回帰モデルが、VQA、M_stall、R2 の3つのコア特徴と組み合わせると、木ベースのモデルよりも優れた結果をもたらし、ロバストネスと過学習の低減が示された。
SSIM をVideo ATLASと組み合わせた場合、Waterlooデータセットで最高のSROCC（0.9090）とLCC（0.8963）を記録し、SQI にすら劣らなかった。
より小さなデータセットでテストした場合、モデルの性能は使用した特徴の数に制限された。これにより、特徴セットを拡張すればさらに予測性能を向上できる可能性があると示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。