QUICK REVIEW

[論文レビュー] No-Reference Video Quality Assessment using Multi-Level Spatially Pooled Features

Franz Götz-Hahn, Vlad Hosu|arXiv (Cornell University)|Dec 17, 2019

Image and Video Quality Assessment参考文献 28被引用数 11

ひとこと要約

本稿では、大規模な屋外環境データセット（FlickrVid-150k）で訓練された、マルチレベルの空間的プーリングを用いた深層特徴を活用する非参照動画品質評価手法MLSP-VQAを提案する。KonVid-1kでは新しいSOTAとなるSRCC 0.83を達成し、クロスデータセットベンチマークにおいても優れた一般化性能を示した。

ABSTRACT

Video Quality Assessment (VQA) methods have been designed with a focus on particular degradation types, usually artificially induced on a small set of reference videos. Hence, most traditional VQA methods under-perform in-the-wild. Deep learning approaches have had limited success due to the small size and diversity of existing VQA datasets, either artificial or authentically distorted. We introduce a new in-the-wild VQA dataset that is substantially larger and diverse: FlickrVid-150k. It consists of a coarsely annotated set of 153,841 videos having 5 quality ratings each, and 1600 videos with a minimum of 89 ratings each. Additionally, we propose new efficient VQA approaches (MLSP-VQA) relying on multi-level spatially pooled deep features (MLSP). They are extremely well suited for training at scale, compared to deep transfer learning approaches. Our best method MLSP-VQA-FF improves the Spearman Rank-order Correlation Coefficient (SRCC) performance metric on the standard KonVid-1k in-the-wild benchmark dataset to 0.83 surpassing the best existing deep-learning model (0.8 SRCC) and hand-crafted feature-based method (0.78 SRCC). We further investigate how alternative approaches perform under different levels of label noise, and dataset size, showing that MLSP-VQA-FF is the overall best method. Finally, we show that MLSP-VQA-FF trained on FlickrVid-150k sets the new state-of-the-art for cross-test performance on KonVid-1k and LIVE-Qualcomm with a 0.79 and 0.58 SRCC, respectively, showing excellent generalization.

研究の動機と目的

人工的に劣化させた動画で訓練された従来のVQA手法の一般化性能の低さを是正するため、大規模かつ多様な屋外環境データセットを構築すること。
小規模で限定的なVQAデータセットによる既存のディープラーニングVQAモデルの限界を克服するため、153,841本の動画と高品質なスコアを備えたFlickrVid-150kを導入すること。
トランスファーラーニングに依存せずに、スケーラブルで効率的なディープラーニングベースのVQA手法を構築し、スケールに応じた良好な性能を発揮すること。
ラベルノイズやデータセットサイズの変動に対するモデルのロバストネスを評価し、実世界の設定でも信頼性を確保すること。
提案されたMLSP-VQAフレームワークを用いて、非参照VQAにおけるクロスデータセット一般化性能の新基準を確立すること。

提案手法

153,841本の動画を含み、各動画に5つの品質スコアが付与された、屋外環境を想定した新しいVQAデータセットFlickrVid-150kを提案。さらに、1,600本の動画は89件以上のスコアが付与されており、大規模な学習を可能にした。
動画フレームから階層的な品質関連パターンを捉えるために、マルチレベルの空間的プールド特徴（MLSP）を抽出するディープラーニングフレームワークMLSP-VQAを導入。
異なる受容 field スケールの複数の特徴マップに対して空間的プールを適用することで、空間的歪みに対してよりロバストで、特徴の識別能を向上させる。
トランスファーラーニングを用いずに、大規模なデータからエンドツーエンドでMLSP-VQAモデルを訓練することで、多様な動画分布における効率的かつスケーラブルな学習を実現。
プールド特徴の上に回帰ヘッドを設け、主観的品質スコアを予測。標準的な回帰損失関数を最適化することで学習を実施。
KonVid-1k や LIVE-Qualcomm などの複数のベンチマークで性能を検証し、一般化性能とロバストネスを評価。

実験結果

リサーチクエスチョン

RQ1大規模かつ多様な屋外環境動画品質データセットは、従来の人工的または限定的なデータセットと比較して、ディープラーニングベースのVQAモデルの一般化性能を向上させることができるか？
RQ2提案されたMLSP-VQA手法は、標準的な屋外環境ベンチマークにおいて、既存のディープラーニングおよびハンドクラフトVQAモデルと比較してどのように性能を発揮するか？
RQ3実世界の動画品質評価設定において、MLSP-VQAはラベルノイズや変動するデータセットサイズに対してどの程度ロバストか？
RQ4新しく導入されたFlickrVid-150kデータセットで学習させることで、未観測のテストセットにおけるクロスデータセット一般化性能が向上するか？
RQ5トランスファーラーニングに依存しないディープラーニングアプローチが、事前学習モデルに依存せずに非参照VQAでSOTA性能を達成できるか？

主な発見

提案されたMLSP-VQA-FFモデルは、KonVid-1kベンチマークでスピアマン順位相関係数（SRCC）0.83を達成し、既存の最良のディープラーニングモデル（0.8 SRCC）およびハンドクラフト手法（0.78 SRCC）を上回った。
FlickrVid-150kで学習したMLSP-VQA-FFはクロスデータセット評価において新たなSOTAを樹立し、KonVid-1kで0.79 SRCC、LIVE-Qualcommで0.58 SRCCを達成した。
モデルはラベルノイズや変動するデータセットサイズに対して強く、全テスト条件下で代替手法を上回った。
FlickrVid-150kの規模と多様性のおかげで、トランスファーラーニングを用いずにディープVQAモデルの効果的な学習が可能となり、データのスケールと多様性の重要性が浮き彫りになった。
MLSP-VQA-FFは従来手法と比較して顕著に優れた一般化性能を示し、マルチレベルの空間的プールが品質評価のための特徴表現を強化していることが示された。
結果から、大規模な屋外データセット上でエンドツーエンドでスケーラブルに学習させたアプローチが、トランスファーラーニングベースの手法を上回ることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。