QUICK REVIEW

[论文解读] Real Time Image Saliency for Black Box Classifiers

Piotr Dabkowski, Yarin Gal|arXiv (Cornell University)|May 22, 2017

Visual Attention and Saliency Detection参考文献 12被引用 79

一句话总结

作者训练了一个快速、基于模型的掩蔽网络，能够对任意可微分的图像分类器在单次前向传播中生成显著性图，从而实现实时显著性检测并在 ImageNet 和 CIFAR-10 上改进弱监督定位。

ABSTRACT

In this work we develop a fast saliency detection method that can be applied to any differentiable image classifier. We train a masking model to manipulate the scores of the classifier by masking salient parts of the input image. Our model generalises well to unseen images and requires a single forward pass to perform saliency detection, therefore suitable for use in real-time systems. We test our approach on CIFAR-10 and ImageNet datasets and show that the produced saliency maps are easily interpretable, sharp, and free of artifacts. We suggest a new metric for saliency and test our method on the ImageNet object localisation task. We achieve results outperforming other weakly supervised methods.

研究动机与目标

推动不依赖迭代掩蔽的稳健且可解释的显著性方法。
开发一个快速的基于模型的显著性检测器，适用于任何可微分分类器。
确保护罩/掩蔽是平滑且精确的，不会引入伪影，同时在显著区域保持分类器的置信度。
引入一种新的显著性度量，与最小充分/毁灭区域概念对齐，并在大规模数据集上验证。

提出的方法

训练一个掩蔽模型（U-Net 风格，使用 ResNet-50 编码器）以通过最小化四项目标函数（Equation 4）来预测显著性掩蔽。
使用生成的证据移除函数 Phi(X,M)=X⊙M+A⊙(1−M) 来控制伪影，其中 A 为模糊或随机颜色/噪声图像。
通过学习的嵌入 C 编码类别信息，并通过对高层 ResNet 特征应用的特征过滤器来定位显著区域（Equation 7）。
通过将两通道输出与自定义非线性 M_s=abs(C_0)/(abs(C_0)+abs(C_1)) 结合并上采样到输入分辨率来获得最终掩蔽 M。
在固定编码器权重的情况下进行训练，定期使用伪类别监督以防止掩蔽主导对象，并在 Phi 调用中对替代图像 A 进行随机化以提高鲁棒性。

实验结果

研究问题

RQ1一个可训练的掩蔽模型是否能够在单次前向传播中为任意可微分的图像分类器生成准确、清晰的显著性图？
RQ2基于模型的显著性在定位精度和可解释性方面，与迭代/梯度基方法相比如何？
RQ3有哪些合适的显著性质量评估度量，能够反映最小充分/毁灭区域且对伪影鲁棒？
RQ4该方法是否在多样化的数据集（ImageNet 和 CIFAR-10）以及多种黑箱分类器上都有效？
RQ5实时显著性是否能实现实际应用，如视频显著性和弱监督定位？

主要发现

该掩蔽模型在标准 GPU 上实现了实时显著性，速度超过每秒 100 个掩蔽。
在 ImageNet 上，使用 ResNet-50 作为黑箱时，掩蔽模型的定位误差为 36.7%，优于若干弱监督基线。
以 GoogLeNet 作为黑箱的方法得到 36.9% 定位误差，使用 AlexNet 时得到 39.8%（因上下文需求更高）。
一种新显著性度量 s(a,p)=log(â)−log(p)（其中 â=max(a,0.05)）与显著性可解释性相关，检测器越好度量越低；掩蔽模型的度量为 0.318，相比基线如 Grad(0.451) 和 Exc(0.415) 更优。
该方法在 ImageNet 定位方面优于此前的弱监督方法，并产生清晰、可解释的掩蔽，定位框在某些情况下与 ground-truth 框相当。
在 CIFAR-10 上，使用改良的轻量架构并带有随机初始化的掩蔽仍能产生清晰可解释的显著性图，证实方法对低分辨率数据的泛化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。