QUICK REVIEW

[论文解读] LLMs for XAI: Future Directions for Explaining Explanations

Alexandra Zytek, Sara Pidò|arXiv (Cornell University)|May 9, 2024

Scientific Computing and Data Management被引用 10

一句话总结

本论文提出使用 LLM 将基于 SHAP 的 ML 解释转换为自然叙述解释，概述评估指标和提示设计，并给出初步的 GPT-3.5 与 GPT-4 结果以及一项初步用户研究。

ABSTRACT

In response to the demand for Explainable Artificial Intelligence (XAI), we investigate the use of Large Language Models (LLMs) to transform ML explanations into natural, human-readable narratives. Rather than directly explaining ML models using LLMs, we focus on refining explanations computed using existing XAI algorithms. We outline several research directions, including defining evaluation metrics, prompt design, comparing LLM models, exploring further training methods, and integrating external data. Initial experiments and user study suggest that LLMs offer a promising way to enhance the interpretability and usability of XAI.

研究动机与目标

激发为没有 ML 背景的领域专家提供更自然、易于理解的 ML 解释的需求。
提出提升 LLM 辅助 XAI 的研究方向，包括评估指标、提示设计、模型比较、训练方法和数据集成。
研究零-shot 的 LLM 能力，将 SHAP 解释转化为叙事，并评估初步性能。
提供早期的经验数据和用户研究洞见，以指导未来在叙事 XAI 方面的工作。

提出的方法

评审并界定用于评估叙事性解释的指标（准确性、流畅性、完整性、情境感知、长度）。
使用 SHAP 解释作为输入，在两个数据集（学生表现和 Ames 房地产）上对五个提示进行实验。
比较 GPT-3.5 与 GPT-4 在零-shot 提示驱动的叙事生成解释中的表现。
开展初步用户研究，比较叙事型解释与情节/图示型解释在可用性和信息量方面的差异。
将提示实验的平均指标分数和定性用户反馈作为初步进展进行报告。

实验结果

研究问题

RQ1LLMs 是否能够在不进行额外训练的情况下，将 SHAP 解释转换为流畅、具备情境感知的叙事性解释？
RQ2提示设计和不同的 LLM 如何影响叙事性解释的质量？
RQ3哪些指标能够捕捉叙事性解释的质量，LLMs 在这些指标上的表现如何？
RQ4与传统解释相比，叙事性解释是否提升了用户的理解和信任？
RQ5有哪些可行的方向（训练、数据集成、模型比较）以改进基于 LLM 的 XAI 叙事？

主要发现

模型	正确性	流畅性	完整性	情境感知	长度
GPT-3.5	1.211	0.811	1.422	0.522	380.611
GPT-4	1.789	0.778	1.700	0.889	793.122

GPT-4 的解释在准确性、完整性和情境感知上优于 GPT-3.5，尽管 GPT-3.5 往往更短且更流畅。
实验中 GPT-4 出错较少，表明在仔细评估下在高风险情境中的潜力。
在初步用户研究中，参与者更偏好叙事型解释，相较于基于情节/图示的解释，在可用性和信息量指标上表现更好。
有力的证据表明叙事性解释可以提升 ML 解释的可解释性和可用性。
该工作确立了指标和提示，作为进一步探索 LLM 在 XAI 中的基础，包括未来的微调和数据集成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。