QUICK REVIEW

[论文解读] A Survey of Explainable Reinforcement Learning

Stephanie Milani, Nicholay Topin|arXiv (Cornell University)|Feb 17, 2022

Explainable Artificial Intelligence (XAI)被引用 25

一句话总结

本综述提出一个新的 Explainable Reinforcement Learning (XRL) 分类法，回顾跨 FI、LPM、和 PL 类别的技术，并勾勒出差距与未来方向。

ABSTRACT

Explainable reinforcement learning (XRL) is an emerging subfield of explainable machine learning that has attracted considerable attention in recent years. The goal of XRL is to elucidate the decision-making process of learning agents in sequential decision-making settings. In this survey, we propose a novel taxonomy for organizing the XRL literature that prioritizes the RL setting. We overview techniques according to this taxonomy. We point out gaps in the literature, which we use to motivate and outline a roadmap for future work.

研究动机与目标

动机：在强化学习中的可解释性需求，源于部署挑战和决策缺乏透明性。
引入一个新的 XRL 分类法，将解释按它们所揭示的 RL 组件来组织（FI、LPM、PL）。
在所提出的分类法内，提供对代表性 XRL 技术的全面综述。
识别文献中的空白并勾勒未来工作的路线图，包括评估基准和 RL 特定的解释。

提出的方法

提出一个新的 XRL 分类法，以 RL 过程和智能体解释为中心（FI、LPM、PL）。
根据该分类法对代表性的 XRL 方法进行调研与归类。
在 RL 场景中对比内在解释与事后代理解释，以及局部解释与全局解释。
讨论解释的评估指标，包括 fidelity（保真度）、relevancy（相关性）和 cognitive load（认知负荷）。
突出未来方向，包括基准测试、RL 特定的解释方法，以及对解释的特性。

实验结果

研究问题

RQ1在 XRL 中，主要的解释类别是什么，以及它们如何关联到 RL 智能体的不同部分及其学习过程？
RQ2FI、LPM 和 PL 的解释在揭示智能体决策和长期行为方面有何差异？
RQ3当前 XRL 文献中存在哪些空白，哪些路线图能够推动 RL 特定的解释和基准？
RQ4在 RL 场景中应如何评估解释，包括用户研究和标准化基准？
RQ5哪些未来的 RL 特定解释技术可以利用 RL 的独特方面（奖励、转移、长期行为）？

主要发现

一个新的 XRL 分类法按它们所解释的 RL 智能体部分来组织技术：特征重要性（FI）、学习过程与 MDP（LPM），以及策略层级（PL）。
FI 解释为决策提供行动级、即时上下文的解释，而 PL 解释总结长期行为，LPM 解释揭示训练或 MDP 相关的影响。
存在内在可解释策略与事后代理解释的混合，保真度和认知负荷之间存在权衡。
许多当前方法借鉴自监督学习，未充分利用 RL 的特征，如奖励和转移动力学。
文献显示在评估方法、基准测试和 RL 特定解释技术方面存在空白，促使为标准化基准和人机协同评估制定路线图。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。