QUICK REVIEW

[论文解读] Can Explainable AI Explain Unfairness? A Framework for Evaluating Explainable AI

Kiana Alikhademi, Brianna Richardson|arXiv (Cornell University)|Jun 14, 2021

Explainable Artificial Intelligence (XAI)参考文献 27被引用 23

一句话总结

本文提出了一种公平性感知的可解释人工智能（XAI）工具评估框架，用于评估其检测和传达机器学习模型中偏见与不公平性的能力。该框架从数据、模型和解释三个维度评估XAI工具，揭示了尽管可解释能力较强，但在公平性检测方面仍存在关键缺陷，呼吁加强工具开发以防止人工智能系统中的‘公平洗白’现象。

ABSTRACT

Many ML models are opaque to humans, producing decisions too complex for humans to easily understand. In response, explainable artificial intelligence (XAI) tools that analyze the inner workings of a model have been created. Despite these tools' strength in translating model behavior, critiques have raised concerns about the impact of XAI tools as a tool for `fairwashing` by misleading users into trusting biased or incorrect models. In this paper, we created a framework for evaluating explainable AI tools with respect to their capabilities for detecting and addressing issues of bias and fairness as well as their capacity to communicate these results to their users clearly. We found that despite their capabilities in simplifying and explaining model behavior, many prominent XAI tools lack features that could be critical in detecting bias. Developers can use our framework to suggest modifications needed in their toolkits to reduce issues likes fairwashing.

研究动机与目标

为应对‘公平洗白’（即XAI工具误导性地为有偏模型辩护）日益增长的担忧，提出系统化的评估框架。
评估现有XAI工具在检测和解释数据与模型行为中偏见和不公平性问题方面的表现。
指导XAI工具包开发者增强其工具的公平性感知功能，以支持伦理AI的部署。
通过将公平性评估整合到XAI工具设计中，弥合可解释AI与公平AI之间的差距。

提出的方法

开发了一个涵盖三大核心类别的整体公平性评分体系：数据、模型和解释，每个类别下设子项以评估与公平性相关的功能。
将该评分体系应用于评估五种主流XAI工具：LIME、SHAP、用于表格数据的LIME、用于图像数据的LIME，以及IBM的AI Explainability 360（AIX360）。
根据工具检测数据偏见、评估模型选择能力以及提供可解释的公平性反馈的能力进行评估。
通过使用合成数据集和真实世界数据集的案例研究，测试工具在识别群体层面和个体层面不公平性方面的表现。
评估工具在支持敏感属性、子组比较以及预处理阶段偏见检测方面的表现。
基于识别出的功能缺陷和以用户为中心的可用性需求，提出未来XAI工具的设计改进建议。

实验结果

研究问题

RQ1当前XAI工具在多大程度上能够检测并解释机器学习模型和训练数据中的不公平性？
RQ2XAI工具在识别群体层面和个体层面不公平性方面表现如何？
RQ3现有XAI工具包中缺失哪些关键的公平性相关功能？这些缺失如何助长‘fairwashing’现象？
RQ4如何增强XAI工具以支持不同机器学习素养水平的用户群体进行公平性评估？
RQ5应遵循哪些设计原则，以开发既具备可解释性又具备公平性的XAI工具？

主要发现

LIME和SHAP在局部可解释性方面表现优异，但缺乏检测数据层面偏见或模型选择问题的功能。
IBM的AIX360在评分体系中得分最高，因其与AIF360集成并支持多种公平性度量，但仍未能识别大规模数据不平衡问题，如选择偏见。
大多数XAI工具未能评估预处理步骤（如标签编码），而这些步骤可能引入非预期的数值偏见。
没有一种工具完全支持对预测结果的子组比较，而这是检测基于群体的不公平性的关键需求。
研究揭示了一个关键缺陷：尽管XAI工具在解释模型输出方面表现出色，但在检测和传达不公平性问题方面能力薄弱。
该框架成功识别出XAI工具中可操作的缺陷，为未来聚焦于公平性感知可解释性的工具开发奠定了基础。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。