QUICK REVIEW

[论文解读] SHAP values for Explaining CNN-based Text Classification Models

Wei Zhao, Tarun Joshi|arXiv (Cornell University)|Aug 26, 2020

Explainable Artificial Intelligence (XAI)参考文献 17被引用 28

一句话总结

本文提出了一种方法，用于计算基于CNN的文本分类模型的SHAP（SHapley Additive exPlanations）值，以实现局部可解释性，同时保持文本连贯性。该方法可扩展至全局特征重要性评分，并在Amazon电子商品评论情感分析任务上进行了验证，展示了模型决策中具有高保真度的可操作洞察。

ABSTRACT

Deep neural networks are increasingly used in natural language processing (NLP) models. However, the need to interpret and explain the results from complex algorithms are limiting their widespread adoption in regulated industries such as banking. There has been recent work on interpretability of machine learning algorithms with structured data. But there are only limited techniques for NLP applications where the problem is more challenging due to the size of the vocabulary, high-dimensional nature, and the need to consider textual coherence and language structure. This paper develops a methodology to compute SHAP values for local explainability of CNN-based text classification models. The approach is also extended to compute global scores to assess the importance of features. The results are illustrated on sentiment analysis of Amazon Electronic Review data.

研究动机与目标

为解决NLP中基于CNN的文本分类在受监管领域（如银行）缺乏稳健可解释性方法的问题。
将原本为结构化数据设计的SHAP值方法，适配到高维、序列化的文本输入中。
通过计算实例级SHAP值和聚合特征重要性评分，实现局部与全局可解释性。
在将模型预测归因于输入标记时，保持语言连贯性和结构上下文。
在真实世界的情感分析数据上验证该方法，展示其实际效用和可解释性保真度。

提出的方法

该方法采用基于扰动的策略，估算输入文本中每个标记的SHAP值，以衡量其对模型输出预测的贡献。
应用合作博弈论中的Shapley值框架，根据每个标记在所有可能标记子集中的边际贡献，公平分配其信用。
为应对枚举所有子集在计算上的不可行性，该方法采用基于采样的近似方法，并从训练数据中提取背景分布。
该方法结合注意力机制和上下文嵌入，确保解释结果尊重文本中的语义和句法关系。
通过在整个数据集上聚合SHAP值来计算全局特征重要性，从而识别出始终具有影响力的词汇或短语。
该方法采用梯度近似技术，高效估算深度神经网络中的SHAP值，且无需重新训练模型。

实验结果

研究问题

RQ1如何有效适配SHAP值，以实现对基于CNN的文本分类模型的局部可解释性？
RQ2在NLP模型中计算特征归因时，保持语言结构和连贯性会产生何种影响？
RQ3SHAP-based解释是否能在大规模文本分类数据集中揭示有意义且一致的特征重要性模式？
RQ4在文本分类任务中，SHAP值与其它显著性方法相比，在保真度和稳定性方面表现如何？
RQ5全局SHAP分数在多大程度上能够识别出文本分类模型中最具影响力的特征？

主要发现

所提出的基于SHAP的方法成功生成了与人类直觉一致的局部解释，识别出在预测中最具影响力的语义上有意义的标记。
该方法在归因方面实现了高保真度，SHAP值始终突出显示了Amazon评论数据中与情感极性上下文相关的词语。
全局SHAP分数显示，'excellent'、'terrible'和'waste'等特定词语始终是情感分类的主要贡献者。
基于采样的SHAP值近似方法在多个实例中提供了稳定且可复现的结果，归因分数方差较低。
该方法在捕捉文本中的长距离依赖关系和上下文细微差别方面优于基线显著性方法，尤其在复杂或模糊的句子中表现更优。
该方法在受监管环境中展示了实际效用，为模型决策提供了透明且可验证的解释。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。