QUICK REVIEW

[论文解读] TrojDRL: Trojan Attacks on Deep Reinforcement Learning Agents

Panagiota Kiourti, Kacper Wardega|arXiv (Cornell University)|Mar 1, 2019

Adversarial Robustness in Machine Learning参考文献 29被引用 24

一句话总结

本文提出 TrojDRL，这是首个针对深度强化学习（DRL）智能体的训练时后门攻击，攻击者通过注入带有修改奖励的污染数据来植入隐藏行为。该攻击仅需 0.025% 的污染数据即可成功，使策略在干净输入下表现正常，但在触发时则导致灾难性后果，而现有针对分类模型的防御机制在 DRL 环境中均失效。

ABSTRACT

Recent work has identified that classification models implemented as neural networks are vulnerable to data-poisoning and Trojan attacks at training time. In this work, we show that these training-time vulnerabilities extend to deep reinforcement learning (DRL) agents and can be exploited by an adversary with access to the training process. In particular, we focus on Trojan attacks that augment the function of reinforcement learning policies with hidden behaviors. We demonstrate that such attacks can be implemented through minuscule data poisoning (as little as 0.025% of the training data) and in-band reward modification that does not affect the reward on normal inputs. The policies learned with our proposed attack approach perform imperceptibly similar to benign policies but deteriorate drastically when the Trojan is triggered in both targeted and untargeted settings. Furthermore, we show that existing Trojan defense mechanisms for classification tasks are not effective in the reinforcement learning setting.

研究动机与目标

证明深度强化学习智能体易受训练时后门攻击的影响，类似于分类模型中的情况。
表明此类攻击可在极低污染率（低至训练数据的 0.025%）下执行，并通过带内奖励修改实现，且不损害正常性能。
研究现有后门防御机制（原本为分类任务设计）在 DRL 智能体上的局限性。
识别在防御 DRL 智能体时的独特挑战，特别是连续控制场景以及非目标化或部分触发攻击的情形。
推动开发针对 DRL 独特动态特性（包括连续输出）的新型防御机制。

提出的方法

通过在状态中附加固定触发器（例如 3×3 像素补丁）并修改相关奖励以强化恶意行为，对少量训练数据进行修改。
该方法利用演员-评论家 DRL 框架，使策略网络通过最大化累积奖励，学会将触发器与目标动作关联起来，即使奖励被微妙地操纵。
奖励操纵采用带内方式执行——不改变干净输入上的奖励分布——使攻击隐蔽且难以察觉。
攻击在目标化和非目标化设置下均进行评估，通过在状态观测中嵌入触发器，使推理阶段激活隐藏行为。
防御评估采用 Neural Cleanse 及其他基于分类的防御方法，揭示其在 DRL 中失效的原因在于对离散输出和单触发行为的假设。
该方法分析了潜在空间中污染样本与干净样本的聚类情况，表明污染样本不会形成孤立聚类，增加了检测难度。

实验结果

研究问题

RQ1能否通过训练期间的数据污染和奖励操纵，在深度强化学习智能体中成功植入后门攻击？
RQ2该攻击在极低污染率下的有效性如何？其在干净输入下的正常性能是否得以保持？
RQ3为何现有针对后门分类模型的防御机制在应用于 DRL 智能体时会失效？
RQ4在防御 DRL 智能体时，特别是在非目标化或部分触发攻击中，会面临哪些独特挑战？
RQ5能否将专为离散输出分类模型设计的防御机制适配到具有连续控制输出的 DRL 智能体上？

主要发现

TrojDRL 仅使用 0.025% 的污染训练数据，即可成功在 DRL 智能体中植入隐藏行为，且在干净输入下性能无任何下降。
在正常条件下，该攻击保持不可检测：当未出现触发器时，策略行为与良性策略无异。
奖励操纵有效且隐蔽：攻击通过带内方式修改奖励，保持整体奖励分布不变，避免引起怀疑。
Neural Cleanse（一种先进的分类模型防御方法）在非目标化 DRL 攻击中无法检测到触发器，原因在于模型在多个输出上分布。
即使污染数据占比达 10%，污染样本在潜在空间中也不会形成独立聚类，使得基于聚类的检测方法失效。
现有防御机制因对离散输出和单触发行为的假设而不适用于 DRL，凸显了针对连续控制和部分触发场景开发新型防御技术的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。