[论文解读] Brain-Inspired Deep Networks for Image Aesthetics Assessment
该论文提出了一种受大脑启发的深度网络(BDN),这是一种受人类视觉感知和神经美学启发的新型深度学习模型,用于图像美学评估。BDN采用并行监督路径学习多种图像属性,通过高层融合网络将这些属性融合以预测整体美学评分及其分布,在AVA数据集上实现了最先进性能,同时提升了鲁棒性和泛化能力。
Image aesthetics assessment has been challenging due to its subjective nature. Inspired by the scientific advances in the human visual perception and neuroaesthetics, we design Brain-Inspired Deep Networks (BDN) for this task. BDN first learns attributes through the parallel supervised pathways, on a variety of selected feature dimensions. A high-level synthesis network is trained to associate and transform those attributes into the overall aesthetics rating. We then extend BDN to predicting the distribution of human ratings, since aesthetics ratings are often subjective. Another highlight is our first-of-its-kind study of label-preserving transformations in the context of aesthetics assessment, which leads to an effective data augmentation approach. Experimental results on the AVA dataset show that our biological inspired and task-specific BDN model gains significantly performance improvement, compared to other state-of-the-art models with the same or higher parameter capacity.
研究动机与目标
- 通过整合神经美学和深度学习的见解,解决图像美学的主观性和复杂性问题。
- 开发一种生物上合理的深度学习架构,模拟人脑中分层视觉处理机制。
- 在手工设计特征和标准深度模型的基础上,进一步提升美学评分预测性能。
- 对人类评分的分布进行建模,而不仅仅是预测点估计,以捕捉评分者之间的差异性。
- 提出一种基于标签保持变换的新数据增强策略,以提升泛化能力。
提出的方法
- BDN采用并行监督路径,每条路径针对不同的图像特征维度(如颜色、纹理、构图)进行训练,使用全卷积网络提取学习到的属性。
- 每条路径独立训练,使用其自身特定的标签监督来学习特定美学属性,模拟人脑视觉系统中的并行处理机制。
- 高层融合网络将所有路径学习到的属性进行融合,以预测整体美学评分。
- 通过基于Kullback-Leibler(KL)散度的损失函数,将模型扩展为预测人类评分的完整分布。
- 在训练过程中应用标签保持变换对数据进行增强,同时保持美学评分的一致性,从而提升模型鲁棒性。
- 模型首先以二值评分预测进行初始化,并通过最小化KL散度对分布预测进行微调。
实验结果
研究问题
- RQ1受人类视觉神经科学启发的深度学习模型是否能在图像美学评估任务中超越现有最先进模型?
- RQ2如何有效利用深度神经网络对人类美学评分的分布进行建模与预测?
- RQ3标签保持的数据增强是否能提升美学评分预测任务中的泛化能力?
- RQ4与端到端学习相比,并行的、属性特定的路径在多大程度上提升了性能?
- RQ5审美判断的认知与神经机制在多大程度上可为设计更具生物合理性的深度学习模型提供指导?
主要发现
- 在重新评估平均值估计时,BDN在δ = 0时达到78.08%的二值评分预测准确率,在δ = 1时达到77.27%,表现出更强的鲁棒性。
- 在评分分布预测中,模型将平均KL散度降低至0.1743,优于BDN-KL-D(0.2052)和BDN-soft-D(0.2338)。
- 在超过96%的AVA测试图像中,BDN估计的平均评分与真实值的差异小于1。
- 失败案例表明,BDN在高度主观或概念性创意图像(如抽象或情感强烈的构图)上表现不佳。
- 模型能够成功识别出评分方差较高的图像,例如被认为具有冲击力或令人不适的图像,表明其对解释性模糊性的敏感性。
- 利用AVA研究中提供的高斯先验,显著增强了模型对潜在评分分布估计的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。