[论文解读] XPROAX-Local explanations for text classification with progressive neighborhood approximation
XPROAX 提出了一种针对文本分类器的局部、与模型无关的解释方法,该方法在潜在空间中采用两阶段渐进式邻域逼近,以反事实样本作为地标,并通过有针对性的采样逐步优化,生成具有意义的真实样本与反事实样本。与 SOTA 基线方法(如 LIME 和 XSPELLS)相比,XPROAX 在解释的有用性、稳定性、完整性、紧凑性及正确性方面均表现出更优性能。
The importance of the neighborhood for training a local surrogate model to approximate the local decision boundary of a black box classifier has been already highlighted in the literature. Several attempts have been made to construct a better neighborhood for high dimensional data, like texts, by using generative autoencoders. However, existing approaches mainly generate neighbors by selecting purely at random from the latent space and struggle under the curse of dimensionality to learn a good local decision boundary. To overcome this problem, we propose a progressive approximation of the neighborhood using counterfactual instances as initial landmarks and a careful 2-stage sampling approach to refine counterfactuals and generate factuals in the neighborhood of the input instance to be explained. Our work focuses on textual data and our explanations consist of both word-level explanations from the original instance (intrinsic) and the neighborhood (extrinsic) and factual- and counterfactual-instances discovered during the neighborhood generation process that further reveal the effect of altering certain parts in the input text. Our experiments on real-world datasets demonstrate that our method outperforms the competitors in terms of usefulness and stability (for the qualitative part) and completeness, compactness and correctness (for the quantitative part).
研究动机与目标
- 为解决由于高维性和稀疏数据导致的文本分类解释中有效局部邻域生成不足的问题。
- 克服现有方法(如 XSPELLS)在潜在空间中使用随机采样所面临的局限性。
- 通过结合原始文本中的词(内在)与邻域中的词(外在)实现词级解释,从而提升解释质量。
- 构建一个定量评估框架,用于衡量解释的完整性、紧凑性和正确性。
- 证明在输入文本之外进行邻域探索,可获得更全面且更稳定的解释。
提出的方法
- XPROAX 使用生成式自编码器将输入文本映射到保持邻域结构的潜在空间。
- 以反事实样本(即会改变模型预测结果的文本)初始化邻域,作为地标。
- 通过两阶段采样过程逐步优化这些反事实样本:首先生成更合理的反事实样本,随后在局部邻域中生成真实样本。
- 从原始输入(内在)和生成的邻域(外在)中提取词级解释,以实现全面洞察。
- 构建基于优化后邻域训练的局部代理模型,以近似黑箱决策边界。
- 设计自动评估框架,通过解释引导编辑后的置信度下降程度,量化解释的完整性、紧凑性和正确性。
实验结果
研究问题
- RQ1在潜在空间中采用渐进式、基于地标的方式进行邻域逼近,能否提升文本分类器的局部解释质量?
- RQ2与仅依赖内在词相比,引入邻域中的外在词是否能提升解释的稳定性和有用性?
- RQ3与随机采样相比,结构化采样策略在潜在空间中生成忠实且有意义的邻居时,其表现优势有多大?
- RQ4所提出的定量指标(完整性、紧凑性、正确性)与人类对解释质量的评估之间是否存在显著相关性?
- RQ5该方法在应用于多样化的文本分类模型和数据集时,是否能保持高忠实度和稳定性?
主要发现
- XPROAX 在所有实验设置中均达到最高完整性,Yelp-RF 数据集上的平均置信度下降为 0.740 ± 0.22,Yelp-DNN 数据集上为 0.825 ± 0.35。
- 在四组设置中的三组中达到最高紧凑性,Yelp-RF 数据集上的平均每次操作置信度下降为 0.417 ± 0.33,Yelp-DNN 数据集上为 0.302 ± 0.43。
- 正确性显著提升,Yelp-RF 数据集上 ∆η(阈值从 0.1 提高到 0.3 时紧凑性变化)为 +0.153,Yelp-DNN 数据集上为 +0.206,优于 XSPELLS 和基线方法。
- 在 Amazon 数据集中,XPROAX 在随机森林模型下实现 0.506 ± 0.20(完整性)和 0.354 ± 0.21(紧凑性)的置信度下降,而在深度神经网络模型下分别为 0.665 ± 0.21 和 0.298 ± 0.25。
- XPROAX 在所有数据集上均优于 LIME 的完整性与紧凑性,尽管 LIME 因初始紧凑性较低而略高正确性。
- 结果证实,相较于仅依赖内在词或在潜在空间中随机采样的方法,对输入文本之外的邻域进行探索,可产生更全面且更稳定的解释。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。