Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Predict Streaming Video QoE: Distortions, Rebuffering and Memory

Christos G. Bampis, Alan C. Bovik|arXiv (Cornell University)|2017. 03. 02.
Image and Video Quality Assessment참고 문헌 35인용 수 27
한 줄 요약

이 논문은 비디오 품질, 리버퍼링, 메모리 기반 특징을 통합하여 스트리밍 비디오의 경험 품질(QoE)을 예측하는 기계학습 프레임워크인 Video ATLAS를 제안한다. LIVE-Netflix 데이터셋으로 훈련된 이 프레임워크는 후행적 및 연속 시간 QoE 예측에서 최신 기술보다 뛰어난 성능을 보이며, 다양한 데이터셋에 대해 뛰어난 일반화 능력을 입증했고, SROCC(최대 0.9090)와 LCC(최대 0.8963) 수준의 높은 상관관계를 보였다.

ABSTRACT

Mobile streaming video data accounts for a large and increasing percentage of wireless network traffic. The available bandwidths of modern wireless networks are often unstable, leading to difficulties in delivering smooth, high-quality video. Streaming service providers such as Netflix and YouTube attempt to adapt their systems to adjust in response to these bandwidth limitations by changing the video bitrate or, failing that, allowing playback interruptions (rebuffering). Being able to predict end user' quality of experience (QoE) resulting from these adjustments could lead to perceptually-driven network resource allocation strategies that would deliver streaming content of higher quality to clients, while being cost effective for providers. Existing objective QoE models only consider the effects on user QoE of video quality changes or playback interruptions. For streaming applications, adaptive network strategies may involve a combination of dynamic bitrate allocation along with playback interruptions when the available bandwidth reaches a very low value. Towards effectively predicting user QoE, we propose Video Assessment of TemporaL Artifacts and Stalls (Video ATLAS): a machine learning framework where we combine a number of QoE-related features, including objective quality features, rebuffering-aware features and memory-driven features to make QoE predictions. We evaluated our learning-based QoE prediction model on the recently designed LIVE-Netflix Video QoE Database which consists of practical playout patterns, where the videos are afflicted by both quality changes and rebuffering events, and found that it provides improved performance over state-of-the-art video quality metrics while generalizing well on different datasets. The proposed algorithm is made publicly available at http://live.ece.utexas.edu/research/Quality/VideoATLAS release_v2.rar.

연구 동기 및 목표

  • 스트리밍 애플리케이션에서 비디오 품질 변화와 리버퍼링 이벤트를 동시에 모델링하지 못하는 기존 QoE 모델의 격차를 해소하기 위해.
  • 기억 효과 및 최근성과 같은 인지적 요소를 고려한 통합적이고 인지 기반의 QoE 예측 프레임워크를 개발하기 위해.
  • 객관적 비디오 품질 지표, 리버퍼링 통계, 메모리 인식 특징을 통합하여 QoE 예측 정확도를 향상시키기 위해.
  • 실제 재생 패턴을 포함한 다양한 데이터셋에서 잘 작동하는 일반화 가능한 모델을 만들기 위해.
  • Netflix 및 YouTube와 같은 스트리밍 서비스에 대한 인지 기반 최적화된 네트워크 자원 할당 전략을 가능하게 하기 위해.

제안 방법

  • 프레임워크는 객관적 비디오 품질(VQA), 리버퍼링 인식 특징(R2), 메모리 기반 특징(M 또는 M_stall)의 세 가지 유형의 특징을 조합한다.
  • SVR, Ridge, Lasso와 같은 회귀기와 같은 학습 기반 접근 방식을 사용하여 특징을 주관적 QoE 점수로 매핑한다.
  • 특징들은 동적 비트레이트 변화와 리버퍼링 이벤트를 포함한 비디오 시퀀스에서 유도되며, 실제 스트리밍 환경을 반영한다.
  • 모델은 후행적 및 연속 시간 주관적 품질 평가가 포함된 LIVE-Netflix 비디오 QoE 데이터베이스에서 훈련된다.
  • 모델의 하이퍼파라미터는 일반화 능력을 향상시키기 위해 워털루 데이터셋을 사용하여 최적화된다. 이는 다른 데이터셋에서 훈련된 경우에도 적용 가능하다.
  • 프레임워크는 단순성과 해석 가능성에 중점을 두어 과적합을 줄이기 위해 핵심 인지적 특징을 사용하는 선형 회귀기들을 선호한다.

실험 결과

연구 질문

  • RQ1통합 QoE 예측 모델이 비디오 품질, 리버퍼링, 메모리 효과를 효과적으로 조합하여 예측 정확도를 향상시킬 수 있는가?
  • RQ2인지적 요소를 忽시하는 모델과 비교해 볼 때, 메모리 기반 특징의 포함이 QoE 예측 성능에 어떤 영향을 미치는가?
  • RQ3Video ATLAS가 LIVE-Netflix 및 워털루와 같은 다양한 데이터셋 간에 얼마나 잘 일반화되는가?
  • RQ4예를 들어 SSIM, MS-SSIM와 같은 객관적 품질 지표와 특징 세트의 다양한 조합이 예측 성능에 어떤 영향을 미치는가?
  • RQ5해석 가능한 특징을 가진 단순한 학습 모델이 일반화가 요구될 경우, SQI와 같은 복잡하고 최적화된 모델을 능가할 수 있는가?

주요 결과

  • LIVE-Netflix에서 훈련된 Video ATLAS는 워털루 데이터셋에서 SROCC 0.9090, LCC 0.8963을 기록하여 SQI 및 기타 최신 기술 모델을 능가했다.
  • LIVE-Netflix 데이터셋에서 테스트한 결과, Video ATLAS는 VQA 특징으로 SSIM을 사용하고 Lasso 회귀를 적용했을 때 SROCC 0.8203, LCC 0.7813을 기록하여 훈련 데이터에서 뛰어난 성능을 보였다.
  • 모델는 잘 일반화되었다: LIVE-Netflix에서 훈련하고 워털루에서 테스트했을 때도 SQI보다 뛰어난 성능을 보였으며, SQI는 LIVE-Netflix 데이터셋에 대해 일반화 능력이 떨어졌다.
  • Lasso 및 SVR와 같은 단순한 회귀기와 세 가지 핵심 특징(VQA, M_stall, R2) 조합이 트리 기반 모델보다 더 좋은 결과를 냈으며, 이는 강건성과 과적합 감소를 시사한다.
  • SSIM과 Video ATLAS의 조합은 워털루 데이터셋에서 가장 높은 SROCC(0.9090)와 LCC(0.8963)를 기록했으며, 이는 SQI와 SSIM을 조합한 경우조차도 뛰어났다.
  • 작은 데이터셋에서 테스트했을 때 모델의 성능은 사용된 특징 수에 의해 제한되었으며, 특징 세트를 확장하면 예측 능력을 더욱 향상시킬 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.