QUICK REVIEW

[論文レビュー] Adaptive Reward-Poisoning Attacks against Reinforcement Learning

Xuezhou Zhang, Yuzhe Ma|arXiv (Cornell University)|Mar 27, 2020

Adversarial Robustness in Machine Learning参考文献 31被引用数 34

ひとこと要約

論文は強化学習に対する報酬汚染攻撃を形式化し、L-infinity摂動下でその攻撃が実現可能か不可能かを証明し、ターゲットポリシーを多項式時間で達成する高速適応攻撃を導入し、経験的にはDRLベースの攻撃手法を用いる。

ABSTRACT

In reward-poisoning attacks against reinforcement learning (RL), an attacker can perturb the environment reward $r_t$ into $r_t+δ_t$ at each step, with the goal of forcing the RL agent to learn a nefarious policy. We categorize such attacks by the infinity-norm constraint on $δ_t$: We provide a lower threshold below which reward-poisoning attack is infeasible and RL is certified to be safe; we provide a corresponding upper threshold above which the attack is feasible. Feasible attacks can be further categorized as non-adaptive where $δ_t$ depends only on $(s_t,a_t, s_{t+1})$, or adaptive where $δ_t$ depends further on the RL agent's learning process at time $t$. Non-adaptive attacks have been the focus of prior works. However, we show that under mild conditions, adaptive attacks can achieve the nefarious policy in steps polynomial in state-space size $|S|$, whereas non-adaptive attacks require exponential steps. We provide a constructive proof that a Fast Adaptive Attack strategy achieves the polynomial rate. Finally, we show that empirically an attacker can find effective reward-poisoning attacks using state-of-the-art deep RL techniques.

研究の動機と目的

報酬が摂動されるRLの訓練時の報酬汚染の研究を動機付ける。
摂動の無限ノルム制約の下で報酬汚染の実現性の領域を特徴づける。
非適応攻撃と高速適応攻撃の戦略の双方を開発し、それらのコストの上限を定める。
深層RL技術を用いて攻撃者が有効な報酬汚染攻撃を見つけられるという実証的証拠を提供する。

提案手法

攻撃を、環境MDPとQ学習を用いる学習エージェント、および報酬の摂動delta_tを制限した攻撃者との間の推論としてモデル化する。
攻撃目的を形式化するために、ターゲットポリシー集合pi^daggerと対応するターゲットQテーブル集合Q^daggerを定義する。
攻撃下のQ学習に対する有界性結果を証明し、非適応攻撃に対する実現不可証明書（Delta_1およびDelta_2）と実現可能証明書（Delta_3）を導出する。
特定のスパース性とDelta条件の下で、多項式時間の攻撃コストを達成するターゲット状態へのナビゲーションにQ_tを用いるFast Adaptive Attack (FAA)を導入する。
適応的攻撃ポリシーphi^xi_FAAを提示し、そのコスト境界（定理5）とグリッド状環境に対する系数推論を分析する。
RL実験を通じて適応攻撃が非適応攻撃より有利であること、そして深層RL（TD3ベース）によって有効な攻撃ポリシーを発見できることを実証的に示す。

実験結果

リサーチクエスチョン

RQ1どのL-infinity報酬摂動の大きさ Delta のとき、ターゲットポリシーを強制するための報酬汚染が実現可能か不実現可能か？
RQ2非適応攻撃と適応攻撃戦略は、pi^daggerを施行する上での攻撃コストと所要時間の点でどう比較されるか？
RQ3適応攻撃はターゲットポリシーの多項式時間での施行を実現できるか、どのような構造的仮定（例：ターゲット状態のスパース性）が必要か？
RQ4データ駆動型手法（例：深層RL）は、解析的に構成された攻撃を超えた有効な報酬汚染戦略を発見できるか？
RQ5報酬汚染下で安全なRL挙動を保証するロバスト性証明書は何か？

主な発見

Delta_1、Delta_2というしきい値以下の摂動では、RLエージェントは安全を保ち、最終的に最適ポリシーへ収束する。
Delta_3というより高い閾値が存在し、それを超えると非適応攻撃がターゲットポリシーを実現可能にし、攻撃コストはO(L^5)（L＝カバー数）で上限付く。
高速適応攻撃(Faa)は、スパースなターゲット状態に対してターゲットポリシーを多項式時間で施行でき、コスト制限は状態空間サイズ |S| や他の要因と多項式的に近いスケーリングを示す。
実験から適応攻撃(FAA)が非適応攻撃より効率的に著しく優れること、深層RL（TD3）によって有効な攻撃ポリシーを発見できることを示す。
チェーンMDPとグリッドワールドにおける実証結果は、適応法の多項式時間の攻撃コストと、非適応法の指数的スケーリングを対比して示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。