[论文解读] Counterfactual Visual Explanations
本文提出一种通过用干扰图像的区域编辑查询图像的区域来改变模型预测并生成反事实视觉解释的方法,并在多个数据集上展示其可解释性和对机器教学的有用性。
In this work, we develop a technique to produce counterfactual visual explanations. Given a 'query' image $I$ for which a vision system predicts class $c$, a counterfactual visual explanation identifies how $I$ could change such that the system would output a different specified class $c'$. To do this, we select a 'distractor' image $I'$ that the system predicts as class $c'$ and identify spatial regions in $I$ and $I'$ such that replacing the identified region in $I$ with the identified region in $I'$ would push the system towards classifying $I$ as $c'$. We apply our approach to multiple image classification datasets generating qualitative results showcasing the interpretability and discriminativeness of our counterfactual explanations. To explore the effectiveness of our explanations in teaching humans, we present machine teaching experiments for the task of fine-grained bird classification. We find that users trained to distinguish bird species fare better when given access to counterfactual explanations in addition to training examples.
研究动机与目标
- 激发并形式化深度视觉模型的反事实视觉解释。
- 定义一个最小编辑变换,用于替换图像区域以将模型输出改变为指定的干扰类别。
- 展示跨数据集的反事实解释的可解释性和判别性。
- 展示反事实解释在细粒度任务机器教学中的潜力。
提出的方法
- 将一个CNN分解为空间特征提取器 f(I) 和决策网络 g(f(I))。
- 用二进制掩码 a 和置换 P 定义变换 f(I) -> f(I*) = (1-a) ∘ f(I) + a ∘ (P f(I′)),以对齐区域。
- 将最小编辑反事实问题表述为:在约束 c′ = argmax g(f(I*)) 的条件下,最小化 ||a||1。
- 通过贪心的序贯穷举搜索求解,选择最大化干扰类别对数概率 g_c′ 的编辑,迭代直到决策改变。
- 通过将 a 放宽到简单形、将 P 放宽到右随机矩阵来提供连续松弛,并使用 softmax 重参数化 a = σ(α) 和 P_i· = σ(m_i^T)。
- 在 SHAPES、MNIST、Omniglot 和 CUB 上进行评价,给出定性结果以及诸如编辑次数和运行时间等定量指标。
实验结果
研究问题
- RQ1我们如何生成忠实的反事实视觉解释,揭示要让模型预测不同类别需要改变的因素?
- RQ2反事实视觉解释是否有助于人类学习和区分细粒度类别(机器教学),超越标准训练示例?
- RQ3解释与跨数据集的判别性图像区域和关键点如何对齐?
- RQ4不同干扰选取(随机与最近邻)时,解释的稳定性如何?
主要发现
- 反事实解释能够识别使目标干扰类别可判别的区域编辑,在跨数据集上具备可解释的区域配对。
- MNIST 结果显示平均需要 2.67 次编辑即可翻转到干扰类别,在 Titan Xp 上每张图像耗时 15 μs。
- Omniglot 结果显示平均每张图像编辑 1.46 次,运行时每张 9 μs。
- CUB 实验报告平均编辑为 7.4(随机干扰)和 5.3(最近邻干扰),分别的运行时间为每张图像 1.85 s 和 1.34 s。
- 在 CUB 上的机器教学显示,使用反事实解释的平均测试准确率为 78.77%,使用 GradCAM 为 74.29%,不使用解释为 71.09%;熟悉度提升使得使用反事实时的表现达到 72.4%,未使用解释时为 61.7%。
- 判别区域通常位于鸟的分割内(97%),并且与关键点对齐的概率为 75-80%;即使预测错误,解释也能突出正确的类别属性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。