QUICK REVIEW

[논문 리뷰] No-Reference Video Quality Assessment using Multi-Level Spatially Pooled Features

Franz Götz-Hahn, Vlad Hosu|arXiv (Cornell University)|2019. 12. 17.

Image and Video Quality Assessment참고 문헌 28인용 수 11

한 줄 요약

이 논문은 대규모 실외 환경 데이터셋(FlickrVid-150k)을 기반으로 훈련된 다중 수준 공간 풀링 특징을 사용하는 비레퍼런스 영상 품질 평가 방법인 MLSP-VQA를 제안한다. KonVid-1k에서 기존 최고 성능(SRCC 0.83)을 달성하였고, 다양한 데이터셋 간 평가에 대해 잘 일반화되어 있으며, 이전의 딥러닝 및 수작업 특징 기반 방법들을 능가한다.

ABSTRACT

Video Quality Assessment (VQA) methods have been designed with a focus on particular degradation types, usually artificially induced on a small set of reference videos. Hence, most traditional VQA methods under-perform in-the-wild. Deep learning approaches have had limited success due to the small size and diversity of existing VQA datasets, either artificial or authentically distorted. We introduce a new in-the-wild VQA dataset that is substantially larger and diverse: FlickrVid-150k. It consists of a coarsely annotated set of 153,841 videos having 5 quality ratings each, and 1600 videos with a minimum of 89 ratings each. Additionally, we propose new efficient VQA approaches (MLSP-VQA) relying on multi-level spatially pooled deep features (MLSP). They are extremely well suited for training at scale, compared to deep transfer learning approaches. Our best method MLSP-VQA-FF improves the Spearman Rank-order Correlation Coefficient (SRCC) performance metric on the standard KonVid-1k in-the-wild benchmark dataset to 0.83 surpassing the best existing deep-learning model (0.8 SRCC) and hand-crafted feature-based method (0.78 SRCC). We further investigate how alternative approaches perform under different levels of label noise, and dataset size, showing that MLSP-VQA-FF is the overall best method. Finally, we show that MLSP-VQA-FF trained on FlickrVid-150k sets the new state-of-the-art for cross-test performance on KonVid-1k and LIVE-Qualcomm with a 0.79 and 0.58 SRCC, respectively, showing excellent generalization.

연구 동기 및 목표

인위적으로 열악하게 손상된 영상에 훈련된 전통적인 VQA 방법의 낮은 일반화 성능 문제를 해결하기 위해 대규모이고 다양한 실외 환경 영상 데이터셋을 구축한다.
작고 제한된 VQA 데이터셋으로 인해 기존 딥러닝 VQA 모델의 한계를 극복하기 위해 153,841개의 영상과 고품질 평가 점수를 포함한 FlickrVid-150k를 도입한다.
이전의 전이 학습에 의존하지 않고도 대규모 스케일에서 잘 작동하는 효율적이고 확장 가능한 딥러닝 기반 VQA 방법을 개발한다.
레이블 노이즈와 다양한 데이터셋 크기 조건에서 모델의 강인성과 신뢰성을 평가하여 실제 환경에서의 신뢰도를 확보한다.
제안된 MLSP-VQA 프레임워크를 사용하여 비레퍼런스 VQA에서 데이터셋 간 일반화 성능을 새롭게 최고 수준으로 끌어올린다.

제안 방법

153,841개의 영상과 각 영상에 대해 5개의 품질 평가 점수를 포함하며, 최소 89개의 평가 점수를 가진 1,600개의 영상가 포함된 실외 환경 VQA 데이터셋인 FlickrVid-150k를 제안한다. 이는 대규모 훈련을 가능하게 한다.
영상 프레임에서 계층적인 품질 관련 패턴을 캡처하기 위해 다중 수준 공간 풀링 특징(MLSP)을 추출하는 딥러닝 프레임워크인 MLSP-VQA를 도입한다.
다양한 수신 영역 스케일에서의 특징 맵에 걸쳐 공간 풀링을 적용하여 공간 왜곡에 대한 강인성을 향상시키고 특징의 구분 능력을 강화한다.
전이 학습 없이 대규모 데이터를 기반으로 끝에서 끝까지 훈련하여 다양한 영상 분포에서 효율적이고 확장 가능한 훈련을 가능하게 한다.
풀링된 특징 위에 회귀 헤드를 적용하여 주관적 품질 점수를 예측하며, 표준 회귀 손실을 최적화한다.
KonVid-1k와 LIVE-Qualcomm를 포함한 여러 벤치마크에서 성능을 검증하여 일반화 능력과 강인성을 평가한다.

실험 결과

연구 질문

RQ1기존의 인위적이거나 제한된 데이터셋에 비해 대규모이고 다양한 실외 환경 영상 품질 데이터셋이 딥러닝 기반 VQA 모델의 일반화 성능을 향상시키는가?
RQ2제안된 MLSP-VQA 방법은 기존의 딥러닝 및 수작업 특징 기반 VQA 모델과 비교하여 표준 실외 환경 벤치마크에서 어떻게 성능을 내는가?
RQ3실제 영상 품질 평가 환경에서, MLSP-VQA는 레이블 노이즈와 다양한 데이터셋 크기에 얼마나 강인한가?
RQ4새로 도입된 FlickrVid-150k 데이터셋에서 훈련된 결과가, 새로운 테스트 세트에서의 데이터셋 간 일반화 성능 향상에 기여하는가?
RQ5전이 학습에 의존하지 않는 딥러닝 접근 방식이 사전 학습된 모델 없이도 비레퍼런스 VQA에서 최고 성능을 달성할 수 있는가?

주요 결과

제안된 MLSP-VQA-FF 모델은 KonVid-1k 벤치마크에서 상관계수(SRCC) 0.83을 달성하였으며, 기존 최고 성능의 딥러닝 모델(0.8 SRCC)과 수작업 특징 기반 방법(0.78 SRCC)을 모두 초월한다.
FlickrVid-150k에서 훈련된 MLSP-VQA-FF는 데이터셋 간 평가에서 새로운 최고 성능을 기록하였으며, KonVid-1k에서 0.79 SRCC, LIVE-Qualcomm에서 0.58 SRCC를 기록하였다.
모델는 모든 테스트 조건에서 대안 모델보다 더 뛰어난 강인성을 보이며, 레이블 노이즈와 다양한 데이터셋 크기에 대해 뛰어난 성능을 유지한다.
FlickrVid-150k의 대규모이고 다양한 특성 덕분에 전이 학습 없이도 깊이 있는 VQA 모델을 효과적으로 훈련시킬 수 있었으며, 데이터 스케일과 다양성의 중요성을 입증한다.
MLSP-VQA-FF는 이전 방법들보다 훨씬 뛰어난 일반화 성능을 보이며, 다중 수준 공간 풀링이 품질 평가를 위한 특징 표현을 향상시킨다는 점을 시사한다.
결과적으로, 대규모 실외 환경 데이터셋에서의 확장 가능한 끝에서 끝까지의 훈련 방식이 VQA 분야에서 전이 학습 기반 접근 방식을 능가할 수 있음을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.