[论文解读] Quantus: An Explainable AI Toolkit for Responsible Evaluation of Neural Network Explanations and Beyond
Quantus 是一个开源的 Python 工具包,提供大量评估指标,用以定量评估神经网络解释,促进可重复性与负责任的 XAI。
The evaluation of explanation methods is a research topic that has not yet been explored deeply, however, since explainability is supposed to strengthen trust in artificial intelligence, it is necessary to systematically review and compare explanation methods in order to confirm their correctness. Until now, no tool with focus on XAI evaluation exists that exhaustively and speedily allows researchers to evaluate the performance of explanations of neural network predictions. To increase transparency and reproducibility in the field, we therefore built Quantus -- a comprehensive, evaluation toolkit in Python that includes a growing, well-organised collection of evaluation metrics and tutorials for evaluating explainable methods. The toolkit has been thoroughly tested and is available under an open-source license on PyPi (or on https://github.com/understandable-machine-intelligence-lab/Quantus/).
研究动机与目标
- 解决 XAI 方法缺乏标准化、定量评估程序的问题。
- 提供一个全面、可扩展的工具包,用于自动化评估解释。
- 通过提供多种指标和准则,提升 XAI 的透明度和可重复性。
提出的方法
- 策划并实现 30+ 个参考指标,涵盖 真实度、鲁棒性、本地化、复杂性、随机化,以及公理类别。
- 将指标分成六大评估类别,并记录其用法与陷阱。
- 提供一个抽象 API 层,将深度学习框架(如 PyTorch、TensorFlow)与评估例程连接。
- 提供教程、示例,以及支持轻松扩展和指标创建的设计。
- 纳入质量控制(测试、CI、flake8、mypy、black)以确保代码可靠性。
实验结果
研究问题
- RQ1XAI 解释如何以标准化、可扩展的方式进行定量评估?
- RQ2哪些指标最能捕捉解释的不同属性(真实性、鲁棒性、本地化等)?
- RQ3评估指标的参数化如何影响结果及对解释方法的比较?
主要发现
- Quantus 汇聚了跨越多种评估类别的大量指标(初始声称 27+),以实现对解释的整体比较。
- 工具包提供指标使用、潜在陷阱和敏感性分析的指南,说明参数选择如何影响排名。
- Quantus 具有抽象、用户友好的 API,能够对预先计算的解释进行一行评估,并易于与模型训练工作流集成。
- 文档和教程支持多样化用例、数据域和任务,强调可重复性和可访问性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。