[论文解读] Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era
本文在LLMs(大型语言模型)的场景中定义了可用的可解释AI(Usable XAI),提出了10种策略,利用解释来提升LLMs并让LLMs提升XAI,并辅以案例研究和开源代码。
Explainable AI (XAI) refers to techniques that provide human-understandable insights into the workings of AI models. Recently, the focus of XAI is being extended toward explaining Large Language Models (LLMs). This extension calls for a significant transformation in the XAI methodologies for two reasons. First, many existing XAI methods cannot be directly applied to LLMs due to their complexity and advanced capabilities. Second, as LLMs are increasingly deployed in diverse applications, the role of XAI shifts from merely opening the ``black box'' to actively enhancing the productivity and applicability of LLMs in real-world settings. Meanwhile, the conversation and generation abilities of LLMs can reciprocally enhance XAI. Therefore, in this paper, we introduce Usable XAI in the context of LLMs by analyzing (1) how XAI can explain and improve LLM-based AI systems and (2) how XAI techniques can be improved by using LLMs. We introduce 10 strategies, introducing the key techniques for each and discussing their associated challenges. We also provide case studies to demonstrate how to obtain and leverage explanations. The code used in this paper can be found at: https://github.com/JacksonWuxs/UsableXAI_LLM.
研究动机与目标
- 在LLMs的背景下定义可用的XAI,并区分两个方向:用解释来改进LLMs/AI系统,以及用LLMs来改进XAI框架。
- 提出分为两类的10条策略:用于LLMs的可用XAI,以及LLMs用于可用XAI。
- 提供案例研究,展示关键技术,并讨论尚待解决的挑战和未来方向。
- 发布开源代码,促进在LLM环境中应用解释。
- 对归因、组件解释、提示工程、知识增强、数据增强、易于使用的解释以及面向LLMs的XAI系统设计进行调查与综合。
提出的方法
- 评审归因方法并评估其在LLMs和生成任务中的适用性。
- 分析LLM内部结构(自注意力和前馈模块)的可解释性。
- 开发基于样本的解释和EK-FAC风格的影响估计用于调试。
- 检查可解释性对可信度的影响(安全性、隐私、公平性、有害性、真实性)以及与人类对齐。
- 探索可解释的提示(思维链及扩展)和知识增强提示。
- 讨论带解释的数据增强和解释引导的数据丰富。
- 设计与LLMs配合的用户友好解释,并利用LLM代理自动化可解释的AI工作流程。
- 考虑使用LLMs来模拟人类标注者与XAI训练和评估中的反馈。
- 提供案例研究和开源代码以展示实际可用性。

实验结果
研究问题
- RQ1如何利用XAI解释来诊断、调试并改进LLMs及更广义的AI系统?
- RQ2LLMs如何推动XAI框架的发展并提高解释对于从业者的可用性?
- RQ3在LLM场景中,哪些实际技术(归因、组件解释、基于样本的解释、提示、知识增强)被证明是有效的?
- RQ4在LLM时代使XAI可用的关键挑战与未来方向是什么?
主要发现
- 基于归因的解释可用于评估LLM的响应质量并检测幻觉,在某些设置中,实证结果显示其性能与基线相近。
- 对LLM组件(自注意力和前馈模块)的解释为模型设计与提示策略提供洞察。
- 可解释提示(思维链与知识增强提示)可以影响推理和决策可控性,已有案例研究观察报道。
- 以解释为引导的数据增强和训练数据丰富可以减小捷径问题,并使模型更符合人类偏好。
- LLMs可以通过生成用户友好的解释、自动化可解释AI工作流程以及通过模拟人类认知来进行评估,从而提升XAI的可用性。
- 该工作提供开源代码以便复制与进一步开发。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。