[论文解读] Online Robust Policy Learning in the Presence of Unknown Adversaries
本文提出了一种元学习的优势层次框架(MLAH),用于在深度强化学习中在线、无攻击模型依赖地缓解对抗性状态输入攻击。通过由主智能体利用优势函数差异检测攻击,引导学习独立的正常与对抗性子策略,MLAH在频繁或长时间攻击下仍显著降低了策略偏差,优于当前最先进方法。
The growing prospect of deep reinforcement learning (DRL) being used in cyber-physical systems has raised concerns around safety and robustness of autonomous agents. Recent work on generating adversarial attacks have shown that it is computationally feasible for a bad actor to fool a DRL policy into behaving sub optimally. Although certain adversarial attacks with specific attack models have been addressed, most studies are only interested in off-line optimization in the data space (e.g., example fitting, distillation). This paper introduces a Meta-Learned Advantage Hierarchy (MLAH) framework that is attack model-agnostic and more suited to reinforcement learning, via handling the attacks in the decision space (as opposed to data space) and directly mitigating learned bias introduced by the adversary. In MLAH, we learn separate sub-policies (nominal and adversarial) in an online manner, as guided by a supervisory master agent that detects the presence of the adversary by leveraging the advantage function for the sub-policies. We demonstrate that the proposed algorithm enables policy learning with significantly lower bias as compared to the state-of-the-art policy learning approaches even in the presence of heavy state information attacks. We present algorithm analysis and simulation results using popular OpenAI Gym environments.
研究动机与目标
- 解决在面对未知、自适应对手导致状态输入被污染时,深度强化学习中在线鲁棒性的关键挑战。
- 克服现有离线、攻击特定防御方法在实时适应攻击策略演变方面的局限性。
- 开发一种通用的、无攻击模型依赖的框架,用于缓解在线训练期间由对抗性状态扰动引入的策略偏差。
- 通过利用时间优势函数差异引导策略选择,实现实时检测与缓解对抗性影响。
- 通过分层、元学习的子策略映射,提升在间歇性或长期对抗性攻击下的回报稳定性与策略性能。
提出的方法
- 提出一种分层元学习框架(MLAH),包含一个监督主智能体,用于在两个子策略之间进行选择:一个用于正常状态,一个用于对抗性状态。
- 使用子策略之间的优势函数差异作为主要信号,实现实时检测对抗性攻击的存在。
- 使用信任区域策略优化(TRPO)或其变体在线训练子策略,主智能体根据优势观测动态切换策略。
- 通过访问频率估计构建回报的悲观下界,提升在非平稳状态分布下的鲁棒性。
- 在OpenAI Gym环境(如InvertedPendulum-v2、MountainCarContinuous-v0)中实现该框架,以在受控对抗条件下验证性能。
- 采用类似期望最大化的学习过程,使主智能体与子策略共同优化,以提升优势估计与策略选择的准确性。
实验结果
研究问题
- RQ1无攻击模型先验知识下,元学习的分层策略框架能否实现实时检测对抗性状态攻击?
- RQ2与单一策略相比,采用独立的正常与对抗性子策略在间歇性或长期攻击下,其回报偏差与稳定性表现如何?
- RQ3优势函数差异在多大程度上可作为在线检测对抗性状态扰动的可靠信号?
- RQ4当攻击者策略随时间变化时,MLAH框架是否仍能保持低策略偏差与高回报性能?
- RQ5主智能体能否仅基于优势观测可靠地选择正确策略(正常或对抗性),而无需显式的状态扰动标签?
主要发现
- 与PPO等最先进方法相比,MLAH在严重或长期状态输入攻击下显著降低了策略偏差。
- 在间歇性攻击环境中(如5000次开启,10000次关闭),MLAH维持了近乎无偏差的评估回报,而单一策略智能体无法有效优化两种状态条件。
- 当攻击与正常周期平衡(m = n)时,MLAH的回报性能接近理论预期,展现出鲁棒性与稳定性。
- 主智能体成功学习到基于优势函数差异切换策略,即使在未明确知晓哪些状态被扰动的情况下亦可实现。
- 在InvertedPendulum-v2与MountainCarContinuous-v0上的仿真结果表明,MLAH在对抗性条件下优于基线的原始策略与PPO方法,表现为更高的回报与更强的策略一致性。
- 当攻击者制造强存在感时,该框架能够从‘零’开始学习,展现出其在动态、类现实环境中的适应性与韧性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。