[论文解读] Towards Quantification of Explainability in Explainable Artificial Intelligence Methods
本文提出一种模型无关、基于代理的量化方法,通过测量认知分块、交互强度和输出结构来衡量XAI中的可解释性。结果表明,与原始特征相比,使用领域知识引导的特征构建(如信贷的5C原则)可使可解释性得分提高60.14%,且性能损失极小,在信贷风险预测等高风险领域中显著提升了可解释性。
Artificial Intelligence (AI) has become an integral part of domains such as security, finance, healthcare, medicine, and criminal justice. Explaining the decisions of AI systems in human terms is a key challenge--due to the high complexity of the model, as well as the potential implications on human interests, rights, and lives . While Explainable AI is an emerging field of research, there is no consensus on the definition, quantification, and formalization of explainability. In fact, the quantification of explainability is an open challenge. In our previous work, we incorporated domain knowledge for better explainability, however, we were unable to quantify the extent of explainability. In this work, we (1) briefly analyze the definitions of explainability from the perspective of different disciplines (e.g., psychology, social science), properties of explanation, explanation methods, and human-friendly explanations; and (2) propose and formulate an approach to quantify the extent of explainability. Our experimental result suggests a reasonable and model-agnostic way to quantify explainability
研究动机与目标
- 为了解决可解释性在可解释人工智能(XAI)方法中缺乏共识与正式量化的问题。
- 从多学科视角(心理学、社会科学、认知科学)定义可解释性,并形式化其属性。
- 开发一种可迁移的、基于代理的可解释性量化方法,无需依赖人工评估。
- 评估在真实应用场景中,整合领域知识是否能同时提升可解释性与模型性能。
- 提供一种可度量、可解释的指标,用于比较不同模型架构与特征集下的XAI方法。
提出的方法
- 提出一个正式公式(公式5),基于输入分块(Ni)、输出分块(No)和交互强度(I)计算可解释性(E)。
- 使用R语言的iml包通过特征交互的边际效应分析计算交互强度(I)。
- 应用认知分块理论:更少且有意义的输入与输出分块可提升感知可解释性。
- 利用相关性加权累积和方法,从原始特征中构建领域特定特征(如信贷的5C原则),以增强可解释性。
- 比较三种特征设置:原始特征、领域相关特征与新构建的特征,以评估可解释性得分。
- 使用抵押贷款违约预测数据集,在多种机器学习模型(如随机森林、梯度提升)上实证验证该方法。
实验结果
研究问题
- RQ1如何在心理学、社会科学与认知科学等学科中,正式定义并量化可解释性?
- RQ2基于领域知识的特征构建相较于原始特征,能在多大程度上提升可解释性?
- RQ3是否可采用基于代理的方法在无需人工评估或实验研究的情况下量化可解释性?
- RQ4在使用领域知识引导的特征工程时,可解释性与模型性能之间的权衡如何?
- RQ5输入与输出表征中的认知分块数量如何影响AI决策的感知可解释性?
主要发现
- 基于信贷5C原则构建的新特征获得了最高的可解释性得分0.2723,相比原始特征(0.1701)提升了60.14%。
- 领域相关特征的可解释性得分为0.2539,表明即使未进行完整特征重构,整合领域知识也能显著提升可解释性。
- 所提方法在未造成显著性能下降的情况下实现了更高的可解释性得分,部分模型(如随机森林、梯度提升)甚至在罕见目标类别上表现出更高的召回率。
- 该方法具有模型无关性,可应用于任意XAI方法,包括后处理解释器(如SHAP),后者受限于原始特征空间,因此无法突破0.1701的可解释性上限。
- 交互强度(I)在各设置间保持相对稳定(0.52–0.56),表明特征交互并非可解释性提升的主要驱动因素,而更主要是输入/输出分块结构的简化。
- 原始特征与领域构建特征之间的性能差异(图2与图3)显示影响可忽略,证实该方法在实际部署中的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。