[论文解读] Explain Your Move: Understanding Agent Actions Using Focused Feature Saliency
本文提出了一种新颖的显著性方法,通过有针对性的扰动来平衡特异性和相关性,以解释深度强化学习智能体。与现有方法相比,该方法生成了更集中、更符合人类理解的显著性图,在棋盘游戏(国际象棋、围棋)和Atari游戏(Breakout、Pong、Space Invaders)中展现出更优的可解释性。
As deep reinforcement learning (RL) is applied to more tasks, there is a need to visualize and understand the behavior of learned agents. Saliency maps explain agent behavior by highlighting the features of the input state that are most relevant for the agent in taking an action. Existing perturbation-based approaches to compute saliency often highlight regions of the input that are not relevant to the action taken by the agent. Our approach generates more focused saliency maps by balancing two aspects (specificity and relevance) that capture different desiderata of saliency. The first captures the impact of perturbation on the relative expected reward of the action to be explained. The second downweights irrelevant features that alter the relative expected rewards of actions other than the action to be explained. We compare our approach with existing approaches on agents trained to play board games (Chess and Go) and Atari games (Breakout, Pong and Space Invaders). We show through illustrative examples (Chess, Atari, Go), human studies (Chess), and automated evaluation methods (Chess) that our approach generates saliency maps that are more interpretable for humans than existing approaches.
研究动机与目标
- 为解决深度强化学习智能体在复杂决策任务中可解释性不足的问题。
- 克服现有基于扰动的显著性方法突出无关输入区域的局限性。
- 开发一种在特异性(对所解释动作的影响)和相关性(对其他动作影响最小化)之间取得平衡的显著性方法。
- 通过更集中且有意义的可视化解释,提升人类对智能体行为的可解释性。
- 通过人工和自动化评估,在包括棋盘游戏和Atari游戏在内的多样化环境中验证该方法。
提出的方法
- 该方法引入一种双目标优化,平衡两个组成部分:(1) 扰动对所解释动作预期奖励的影响,以及 (2) 对影响其他动作的扰动进行抑制。
- 采用基于梯度的扰动,以估计输入特征对智能体动作选择的影响,重点关注相对奖励变化。
- 显著性分数通过结合目标动作的相对预期奖励变化和一个正则化项来计算,后者用于惩罚影响非目标动作的扰动。
- 该方法采用聚焦扰动策略,选择性地遮蔽或修改输入特征,同时测量其对动作选择的影响。
- 该方法应用于在国际象棋、围棋和Atari游戏等环境中通过深度强化学习训练的智能体。
- 显著性图通过根据输入特征对智能体动作的影响程度进行排序生成,重点突出对决策既相关又特异的特征。
实验结果
研究问题
- RQ1在分析强化学习智能体决策时,如何使显著性图对人类用户更具聚焦性和可解释性?
- RQ2与现有基于扰动的方法相比,平衡特异性和相关性在多大程度上提升了显著性解释的质量?
- RQ3所提出的方法能否在国际象棋和Atari游戏等多样化环境中,生成更准确且直观的智能体推理可视化?
- RQ4与基线方法相比,人类用户如何感知该方法生成的显著性图的可解释性?
- RQ5哪些定量指标能够可靠评估强化学习智能体解释任务中显著性图的质量?
主要发现
- 通过国际象棋智能体的人工研究验证,所提出方法生成的显著性图比现有方法更具人类可解释性。
- 该方法通过减少对不影响智能体所选动作的无关输入特征的关注,实现了更高的聚焦性。
- 在国际象棋的自动化评估中,该方法在识别与智能体动作选择最相关的特征方面优于基线方法。
- 该方法有效平衡了特异性和相关性,生成的显著性图仅突出与所采取动作最相关的输入特征。
- 来自国际象棋、围棋和Atari游戏的示例表明,与以往技术相比,该方法生成了更清晰、更直观的可视化解释。
- 该方法在包括离散动作游戏和复杂策略游戏在内的多样化强化学习环境中表现出一致的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。