QUICK REVIEW

[论文解读] LioNets: Local Interpretation of Neural Networks through Penultimate Layer Decoding

Ioannis Mollas, Nikolaos Bassiliades|arXiv (Cornell University)|Jun 15, 2019

Adversarial Robustness in Machine Learning参考文献 16被引用 13

一句话总结

LioNets 提出了一种用于深度神经网络的局部解释方法，通过在倒数第二层的潜在空间中生成邻域实例，确保更好的特征邻近性和保真度。通过训练解码器从该潜在空间重建输入，LioNets 生成的解释比 LIME 更准确、更稳定，尤其在捕捉 NLP 任务中细微的特征重要性变化方面表现更优。

ABSTRACT

Technological breakthroughs on smart homes, self-driving cars, health care and robotic assistants, in addition to reinforced law regulations, have critically influenced academic research on explainable machine learning. A sufficient number of researchers have implemented ways to explain indifferently any black box model for classification tasks. A drawback of building agnostic explanators is that the neighbourhood generation process is universal and consequently does not guarantee true adjacency between the generated neighbours and the instance. This paper explores a methodology on providing explanations for a neural network's decisions, in a local scope, through a process that actively takes into consideration the neural network's architecture on creating an instance's neighbourhood, that assures the adjacency among the generated neighbours and the instance.

研究动机与目标

解决像 LIME 这类模型无关的局部解释器的局限性，后者在原始输入空间中生成邻域，可能因稀疏扰动导致邻近性差。
通过在倒数第二层的密集潜在表示中生成邻域，提升解释的保真度和局部性，更好地反映网络的内部决策边界。
通过利用神经网络学习到的表示，确保生成的邻域在语义和结构上与原始实例更接近。
开发一种方法，保留深度神经网络的结构归纳偏差，以生成更可靠、更鲁棒的局部解释。
证明该方法相比现有最先进方法（如 LIME）能产生更准确、更稳定的特征重要性估计。

提出的方法

不在原始输入空间中构建局部邻域，而是在训练好的神经网络的倒数第二层中构建。
训练一个解码器网络，从其倒数第二层表示中重建原始输入样本，形成类似变分自编码器的结构。
使用解码器将扰动后的潜在表示映射回输入空间，实现在原始特征空间中的解释。
通过将解码后的邻域与其对应的原始神经网络的模型预测（类别概率）相结合，构建一个“真实”数据集。
在真实数据集上训练一个透明、可解释的模型（如岭回归），以提取作为解释的特征重要性权重。
通过将系数与原始实例的特征值按特征缩放，实现特征级归因，生成直观的、实例特定的解释。

实验结果

研究问题

RQ1在神经网络的倒数第二层中生成邻域实例，是否能比在原始输入空间中扰动生成更忠实、更准确的局部解释？
RQ2使用从潜在空间映射回输入空间的预训练解码器，是否能更好地保持邻域与原始实例之间的接近性（邻近性）？
RQ3LioNets 在捕捉细微的、上下文相关的特征重要性变化方面，与 LIME 相比表现如何，特别是在稀疏数据（如文本）中？
RQ4潜在空间表示在多大程度上能实现比输入空间扰动更具有代表性、更密集的邻域生成？
RQ5该方法是否能在保持高保真度的同时，提升 NLP 应用中深度神经网络决策的可解释性？

主要发现

LioNets 生成的特征重要性解释比 LIME 更准确，这通过与消融研究的一致性得到验证——例如，移除 'are' 或 'wife' 等特征，分别导致模型对 'hate' 或 'spam' 类别的预测概率下降。
LioNets 在倒数第二层潜在空间中生成的邻域与原始实例的欧氏距离显著更小（0.2163），而 LIME 在原始空间中生成的邻域距离为 0.3961，表明邻近性更优。
当解码回原始空间后，LioNets 邻域与原始实例的距离为 0.7635，略大于 LIME 的 0.3961，但该方法确保邻域构建在能保持语义和结构接近性的空间中。
由于 LIME 可生成的独特邻域数量有限，该方法能捕捉 LIME 可能遗漏的细微特征重要性变化，尤其在稀疏、高维数据（如文本）中表现更优。
通过在倒数第二层上训练的解码器，能够生成更大、更密集、更具代表性的潜在空间邻域，从而提升透明模型训练的鲁棒性。
在仇恨言论和短信垃圾邮件数据集上，LioNets 的解释更稳定、更一致，且与消融结果相符，证实了其特征归因的可靠性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。