QUICK REVIEW

[论文解读] Interpretability Beyond Classification Output: Semantic Bottleneck Networks

Max Losch, Mario Fritz|arXiv (Cornell University)|Jul 25, 2019

Explainable Artificial Intelligence (XAI)参考文献 33被引用 28

一句话总结

本文提出语义瓶颈网络（SBN），通过将高层特征映射到预定义的语义概念（例如物体部件、材质）空间，实现深度学习模型中语义可解释的中间层嵌入。尽管将特征维度从数千维降低至数十个通道，SBN在街景分割任务上仍保持最先进性能，并实现了预测结果的完全可解释性，包括故障分析与置信度估计，对76.3%的像素实现超过99%的准确率。

ABSTRACT

Today's deep learning systems deliver high performance based on end-to-end training. While they deliver strong performance, these systems are hard to interpret. To address this issue, we propose Semantic Bottleneck Networks (SBN): deep networks with semantically interpretable intermediate layers that all downstream results are based on. As a consequence, the analysis on what the final prediction is based on is transparent to the engineer and failure cases and modes can be analyzed and avoided by high-level reasoning. We present a case study on street scene segmentation to demonstrate the feasibility and power of SBN. In particular, we start from a well performing classic deep network which we adapt to house a SB-Layer containing task related semantic concepts (such as object-parts and materials). Importantly, we can recover state of the art performance despite a drastic dimensionality reduction from 1000s (non-semantic feature) to 10s (semantic concept) channels. Additionally we show how the activations of the SB-Layer can be used for both the interpretation of failure cases of the network as well as for confidence prediction of the resulting output. For the first time, e.g., we show interpretable segmentation results for most predictions at over 99% accuracy.

研究动机与目标

通过引入内在可解释的中间表示，解决端到端深度学习模型缺乏可解释性的问题。
使工程师能够利用人类可理解的语义概念来检查和推理模型决策。
在通过语义瓶颈层大幅降低特征维度的同时，保持最先进性能。
通过识别预测中缺失或冲突的语义证据，为故障分析提供工具。
利用可解释的语义激活估计预测置信度，提升模型输出的可靠性与可信度。

提出的方法

回顾性地训练一个映射函数，将预训练网络的中间特征投影到与任务相关的预定义语义空间中。
在原始模型中插入语义瓶颈（SB）层，替代原始特征层，并微调下游层。
使用金字塔状的空间感受野（3×3）聚合语义激活，以实现鲁棒的预测与置信度估计。
在SB输出上训练二分类器以估计每类的置信度，使用Sigmoid输出作为概率代理。
在训练置信度预测器时，采用两阶段过滤过程，去除误分类及可能标注错误的样本。
利用SB层的激活分析错误案例，识别缺失或冲突的语义证据。

实验结果

研究问题

RQ1我们能否在不牺牲性能的前提下，将语义可解释的中间表示嵌入深度学习模型？
RQ2语义瓶颈层如何在最终分类输出之外，提升模型决策的可解释性？
RQ3能否通过检测缺失或冲突的证据，利用语义激活诊断故障案例？
RQ4在SB输出上使用简单分类器能否提供与预测准确率高度相关的可靠置信度估计？
RQ5当特征维度从数千维降低至数十个语义通道时，模型能否保持最先进性能？

主要发现

尽管将特征维度从数千维降低至数十个语义通道，SBN在街景分割任务上仍达到最先进性能。
模型对超过99%的预测实现了可解释的分割结果，且能清晰可视化语义概念证据。
误分类通常可归因于缺失或冲突的语义证据，例如缺乏部件检测的模糊区域，或周围纹理覆盖正确线索。
基于单隐藏层分类器的置信度预测器在76.3%的像素上实现超过99%的准确率，与不可解释基线模型表现接近。
与语义概念有直接关联的类别表现出更准确的置信度预测，证明SB中概念对齐的价值。
SB层支持假设检验，例如判断添加特定语义证据是否会将预测结果更正为正确类别。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。