[论文解读] Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences
该论文提出一种通过预期后果来解释强化学习代理行为的方法,使用学习策略与用户指定的对照 foil 之间的对比查询。它将状态/动作翻译为用户友好的概念,并通过一项初步的用户研究证明以策略为焦点的解释更受欢迎。
Machine Learning models become increasingly proficient in complex tasks. However, even for experts in the field, it can be difficult to understand what the model learned. This hampers trust and acceptance, and it obstructs the possibility to correct the model. There is therefore a need for transparency of machine learning models. The development of transparent classification models has received much attention, but there are few developments for achieving transparent Reinforcement Learning (RL) models. In this study we propose a method that enables a RL agent to explain its behavior in terms of the expected consequences of state transitions and outcomes. First, we define a translation of states and actions to a description that is easier to understand for human users. Second, we developed a procedure that enables the agent to obtain the consequences of a single action, as well as its entire policy. The method calculates contrasts between the consequences of a policy derived from a user query, and of the learned policy of the agent. Third, a format for generating explanations was constructed. A pilot survey study was conducted to explore preferences of users for different explanation properties. Results indicate that human users tend to favor explanations about policy rather than about single actions.
研究动机与目标
- 激发对透明RL解释的需求,并解决 RL 的 XAI 面临的不足。
- 提出一种通过预期状态转变和结果来解释 RL 行为的方法。
- 将低层次的 RL 特征翻译为便于用户理解的概念以用于解释。
- 通过将学习到的策略与对照策略进行比较来实现对比解释。
- 通过初步研究评估用户对解释类型的偏好。
提出的方法
- 通过将状态翻译为概念 C、将动作翻译为结果 O,并通过 k 和 t,来定义一个可解释的 MDP。
- 使用转移模型 T 来模拟学习策略 πt 和对照策略 πf 的后果,以获得策略层面的解释。
- 通过将基于用户问题的奖励 QI 与学习得到的 Qt 结合来构建对照策略 πf,形成 Qf 并推导 πf。
- 通过仿真训练 QI,使用旨在偏好被查询动作的奖励,结合基于距离的权重 w(s_i, s_t)。
- 使用 k 和 t 将轨迹 γ(s_t, π) 转换为路径 Path(s_t, π),以提供简明的解释。
- 通过相对补集和对称差来比较 Path(s_t, πt) 与 Path(s_t, πf),生成对比解释。
实验结果
研究问题
- RQ1如何在解释 RL 策略时以其预期后果而非原始动作或奖励来表达?
- RQ2通过对比解释框架——将学习到的策略与用户指定的对照策略进行比较——是否能提高对 RL 行为的理解?
- RQ3将状态/动作翻译为人性化概念的哪种方式最能提升解释质量?
- RQ4用户是否更偏好策略层面的解释而非单一动作的解释?
主要发现
- 该方法使得解释可基于策略的模拟后果,而非原始的状态-动作数据。
- 初步研究中的参与者更偏好关于策略(方法)而非单一动作的解释。
- 通过构建一个遵循用户查询并保持与学习策略一致的对照策略,可以生成对比解释框架。
- 该用户研究涉及 82 名参与者,考察了解释属性的偏好,如长度、信息等级,以及对动作与策略的关注。
- 提供充足信息并涵盖策略/政策的解释更受欢迎。
- 该方法证明了将 RL 解释转化为人类可解释概念的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。