[论文解读] Fidelity Estimation Improves Noisy-Image Classification With Pretrained Networks
本文提出FG-NIC,一种通过将学习到的保真度图融合到特征提取器的内部表征中,利用预训练卷积网络增强噪声图像分类的方法。保真度图通过深度网络估计,基于恢复图像与干净图像之间的ℓ1距离,引导注意力以提升鲁棒性,在高噪声水平下性能接近完全微调模型,同时实现无需微调即可即插即用现有分类器。
Image classification has significantly improved using deep learning. This is mainly due to convolutional neural networks (CNNs) that are capable of learning rich feature extractors from large datasets. However, most deep learning classification methods are trained on clean images and are not robust when handling noisy ones, even if a restoration preprocessing step is applied. While novel methods address this problem, they rely on modified feature extractors and thus necessitate retraining. We instead propose a method that can be applied on a $pretrained$ classifier. Our method exploits a fidelity map estimate that is fused into the internal representations of the feature extractor, thereby guiding the attention of the network and making it more robust to noisy data. We improve the noisy-image classification (NIC) results by significantly large margins, especially at high noise levels, and come close to the fully retrained approaches. Furthermore, as proof of concept, we show that when using our oracle fidelity map we even outperform the fully retrained methods, whether trained on noisy or restored images.
研究动机与目标
- 在不微调预训练模型的前提下,提升噪声输入下的图像分类性能。
- 解决深度学习分类器在应用于噪声或退化图像时的鲁棒性差距问题。
- 实现在噪声成像场景中对现有预训练分类器的模块化部署。
- 开发一种基于图像恢复质量引导网络注意力的保真度图。
- 证明保真度引导的特征调整可与或优于完全微调模型。
提出的方法
- 该方法使用恢复图像与干净参考图像之间的ℓ1距离估计数据保真度图,表示恢复质量的像素级置信度。
- 训练一个深度神经网络,从噪声输入中预测该保真度图,支持端到端学习或外部估计。
- 通过可学习的乘法和加法注意力机制,在多个层级将保真度图空间融合到特征提取器中。
- 融合操作采用特征图的逐元素乘法和加法,使网络能够抑制噪声区域中的不可靠特征。
- 该方法应用于权重固定的预训练分类器,实现无需微调的即插即用。
- 消融研究中使用了保真度图的真值(即“oracle”图)以展示理论性能上限。
实验结果
研究问题
- RQ1能否在不微调的前提下使预训练图像分类器对噪声输入具有鲁棒性?
- RQ2学习到的保真度图能否引导特征提取器中的注意力,以提升噪声图像上的分类性能?
- RQ3保真度引导的特征融合在噪声图像分类中与完全微调模型相比如何?
- RQ4保真度图是否在更高噪声水平下带来更显著的性能提升?
- RQ5使用预训练分类器的即插即用方法能否优于需要架构重构或微调的方法?
主要发现
- FG-NIC在噪声图像上显著提升了分类准确率,尤其在高噪声水平下(σ = 0.5),在Caltech-101上达到75.39%的准确率(使用ResNet-50)。
- 该方法优于在恢复图像上测试的基线预训练模型(在σ = 0.1时为80.17% vs. 77.99%),并可与完全微调模型相媲美。
- 使用“oracle”保真度图时,FG-NIC在Caltech-101上于σ = 0.5时达到89.02%的准确率,超越所有完全微调模型。
- 消融研究证实,空间乘法和加法机制至关重要,其移除会使高噪声下的准确率降低最多达3.5%。
- 该方法计算效率高,仅增加10.49M可训练参数和0.08亿次MAC,适合实际部署。
- 在高噪声水平下,使用ℓ1距离进行保真度估计优于ℓ2和余弦距离,因其对异常值更具鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。