QUICK REVIEW

[논문 리뷰] A Probabilistic Quality Representation Approach to Deep Blind Image Quality Prediction

Hui Zeng, Lei Zhang|arXiv (Cornell University)|2017. 08. 28.

Image and Video Quality Assessment참고 문헌 41인용 수 61

한 줄 요약

확률적 품질 표현(PQR)을 도입하여 주관적 이미지 품질의 분포를 모델링하고, 강건한 딥 BIQA 훈련과 스칼라 점수 회귀 대비 정확도 향상을 가능하게 합니다. 앵커, 소프트 매핑, 및 KL-발산 손실을 사용하여 CNN을 PQR 타깃에 대해 학습하고 스칼라 점수로 다시 매핑합니다.

ABSTRACT

Blind image quality assessment (BIQA) remains a very challenging problem due to the unavailability of a reference image. Deep learning based BIQA methods have been attracting increasing attention in recent years, yet it remains a difficult task to train a robust deep BIQA model because of the very limited number of training samples with human subjective scores. Most existing methods learn a regression network to minimize the prediction error of a scalar image quality score. However, such a scheme ignores the fact that an image will receive divergent subjective scores from different subjects, which cannot be adequately represented by a single scalar number. This is particularly true on complex, real-world distorted images. Moreover, images may broadly differ in their distributions of assigned subjective scores. Recognizing this, we propose a new representation of perceptual image quality, called probabilistic quality representation (PQR), to describe the image subjective score distribution, whereby a more robust loss function can be employed to train a deep BIQA model. The proposed PQR method is shown to not only speed up the convergence of deep model training, but to also greatly improve the achievable level of quality prediction accuracy relative to scalar quality score regression methods. The source code is available at https://github.com/HuiZeng/BIQA_Toolbox.

연구 동기 및 목표

블라인드 IQA에서 단일 스칼라 점수 너머의 이미지 품질에 대한 더 풍부한 표현의 필요성을 제시합니다.
주관적 품질의 분포를 품질 앵커와 확률적 매핑을 사용해 설명하기 위해 PQR를 제안합니다.
CNN이 PQR 벡터를 출력하도록 학습하기 위한 KL-발산(소프트맥스 교차 엔트로피)을 이용한 학습 전략을 개발합니다.
PQR가 수렴 속도를 높이고 여러 IQA 데이터베이스에서 예측 정확도를 향상시킨다는 것을 입증합니다.

제안 방법

점수 범위 내에서 M개의 품질 앵커를 정의(균등 또는 로 Lloyd-Max 양자화).
각 이미지 MOS y를 soft mapping으로 PQR 벡터 q로 변환: q^m = exp(-β||y-c^m||^2)/sum_i exp(-β||y-c^i||^2).
PQR에서 스칼라 점수로 되돌리는 역매핑 h(q)를 학습하여 훈련 데이터의 제곱 오차를 최소화합니다.
목표 q와 네트워크 출력 간의 KL-발산(소프트맥스 출력과의 교차 엔트로피)을 사용하여 PQR 벡터를 출력하도록 CNN 학습합니다.
패치 수준 예측을 풀링(평균 풀링)하여 전체 이미지 품질 점수를 얻습니다.
사전 학습된 AlexNet 및 ResNet50(미세 조정)과 패치 기반 입력을 위한 얕은 S-CNN으로 실험합니다.

실험 결과

연구 질문

RQ1퍼셉추얼한 이미지 품질의 확률적, 앵커 기반 표현이 스칼라 회귀에 비해 딥 BIQA의 학습 안정성과 정확성을 향상시킬 수 있을까요?
RQ2앵커와 완만화 매개변수 β를 어떻게 선택해야 하며, PQR이 실제 왜곡과 합성 왜곡 및 여러 데이터베이스에서 어떻게 작동하나요?
RQ3CNN 아키텍처 전반에 걸쳐 PQR를 사용했을 때 수렴 속도와 최종 예측 성능에 어떤 영향을 미치나요?
RQ4PQR 예측에서 역매핑 h(·)가 스칼라 MOS를 복구하는 데 얼마나 효과적입니까?
RQ5패치 기반 PQR 학습과 평균 풀링이 전통적 스칼라-회귀 BIQA 기법과 경쟁력이 있나요?

주요 결과

PQR 기반 모델은 LIVE Challenge, LIVE IQA, CSIQ, TID2013 데이터세트에서 SRCC 및 PLCC 측면에서 스칼라 회귀 기반 기법을 지속적으로 능가합니다.
β = 64를 사용하면 데이터베이스 간에 견고한 성능이 나타나며, PQR은 앵커 밀도 M에 비교적 둔감합니다(M = 5가 일반적으로 효과적임).
AlexNet 및 ResNet50에 PQR를 적용하면 모든 보고 데이터베이스(LIVE Challenge, LIVE IQA, CSIQ, TID2013)에서 SQR 대비 더 높은 SRCC/PLCC를 달성합니다.
PQR은 더 풍부한 감독 신호와 KL-발산 기반 손실로 인해 수렴 속도와 일반화 성능이 향상됩니다.
PQR에서 MOS로의 역매핑 h(q)가 정확하며( MOS 스케일 [0,1]에서 평균 오차 < 0.01) 합리적인 β 및 M 선택으로 안정적입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.