[论文解读] JND-SalCAR: A Novel JND-based Saliency-Channel Attention Residual Network for Image Quality Prediction
该论文提出JND-SalCAR,一种新颖的深度学习图像质量评估框架,将人类视觉系统(HVS)特性——特别是视觉显著性与可察觉差异(JND)——整合进可训练的残差网络。通过引入一种基于显著图引导的空间与通道注意力机制的SalCAR模块,并利用显著性作为块权重的引导,该模型在大规模IQA数据集上实现了最先进性能,通过有效建模感知重要性与人类敏感度阈值,超越了现有方法。
In image quality enhancement processing, it is the most important to predict how humans perceive processed images since human observers are the ultimate receivers of the images. Thus, objective image quality assessment (IQA) methods based on human visual sensitivity from psychophysical experiments have been extensively studied. Thanks to the powerfulness of deep convolutional neural networks (CNN), many CNN based IQA models have been studied. However, previous CNN-based IQA models have not fully utilized the characteristics of human visual systems (HVS) for IQA problems by simply entrusting everything to CNN where the CNN-based models are often trained as a regressor to predict the scores of subjective quality assessment obtained from IQA datasets. In this paper, we propose a novel JND-based saliency-channel attention residual network for image quality assessment, called JND-SalCAR, where the human psychophysical characteristics such as visual saliency and just noticeable difference (JND) are effectively incorporated. We newly propose a SalCAR block so that perceptually important features can be extracted by using a saliency-based spatial attention and a channel attention. In addition, the visual saliency map is further used as a guideline for predicting the patch weight map in order to afford a stable training of end-to-end optimization for the JND-SalCAR. To our best knowledge, our work is the first HVS-inspired trainable IQA network that considers both the visual saliency and JND characteristics of HVS. We evaluate the proposed JND-SalCAR on large IQA datasets where it outperforms all the recent state-of-the-art IQA methods.
研究动机与目标
- 为解决现有基于CNN的IQA模型未能充分利用人类视觉系统(HVS)特性(如视觉显著性与可察觉差异,JND)的局限性。
- 开发一种可训练的端到端深度学习框架,明确将HVS心理物理学原理融入图像质量预测。
- 通过使用视觉显著性图作为块权重预测的引导,提升训练的稳定性和感知相关性。
- 设计一种新型注意力机制,联合强调感知重要的空间区域与特征通道。
- 通过更准确地建模人类感知,在大规模图像质量评估基准上实现最先进性能。
提出的方法
- 提出一种新颖的SalCAR模块,结合基于视觉显著性图的空间注意力与通道注意力,以突出感知显著特征。
- 引入基于JND的损失函数,使网络预测与人类感知阈值对齐,提升对细微失真的敏感度。
- 在训练过程中,利用视觉显著性图作为动态引导,生成逐块权重,稳定端到端优化过程。
- 采用残差网络架构,实现深层特征学习的同时保持梯度流动与训练稳定性。
- 设计多尺度特征提取模块,保留对质量评估至关重要的空间与通道感知信息。
- 采用带JND感知监督的回归损失,端到端训练整个网络,确保与人类主观质量评分的一致性。
实验结果
研究问题
- RQ1将人类视觉系统(HVS)特性(如视觉显著性与可察觉差异,JND)整合进深度学习框架,是否能提升图像质量评估性能?
- RQ2基于显著性的注意力机制在图像质量预测过程中,如何增强模型聚焦于感知重要区域的能力?
- RQ3将视觉显著性用作块权重预测的引导,能在多大程度上提升端到端IQA网络的训练稳定性和泛化能力?
- RQ4联合空间与通道注意力机制(SalCAR)是否在IQA任务中优于传统注意力模块?
- RQ5一种受HVS启发且可训练的IQA模型,是否能在大规模真实世界IQA数据集上超越现有最先进方法?
主要发现
- JND-SalCAR在多个大规模图像质量评估数据集上达到最先进性能,超越所有近期SOTA方法。
- 显著性与JND特性的整合显著提升了模型对感知相关失真的敏感度。
- 基于显著性的块权重机制增强了端到端优化过程中的训练稳定性和收敛性。
- SalCAR模块有效捕捉了空间与通道维度的感知重要性,从而实现更精确的质量预测。
- 由于显式建模了人类视觉感知,该模型在各类图像失真下展现出优越的泛化能力。
- 定量结果表明,SROCC与PLCC指标持续优于现有方法,证实其在预测人类主观质量评分方面的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。