[論文レビュー] Policy Poisoning in Batch Reinforcement Learning and Control
この論文は、訓練報酬を最小限に摂動することにより、バッチRLと制御学習者が攻撃者が選択したポリシーを採用するように促す、データ汚染攻撃の統一的で凸最適化フレームワークを導入します。これは、タブラー認識不確実性等価性(TCE)および線形二次レギュレータ(LQR)被害者での攻撃を具体化・分析し、実験的に有効性を実証します。
We study a security threat to batch reinforcement learning and control where the attacker aims to poison the learned policy. The victim is a reinforcement learner / controller which first estimates the dynamics and the rewards from a batch data set, and then solves for the optimal policy with respect to the estimates. The attacker can modify the data set slightly before learning happens, and wants to force the learner into learning a target policy chosen by the attacker. We present a unified framework for solving batch policy poisoning attacks, and instantiate the attack on two standard victims: tabular certainty equivalence learner in reinforcement learning and linear quadratic regulator in control. We show that both instantiation result in a convex optimization problem on which global optimality is guaranteed, and provide analysis on attack feasibility and attack cost. Experiments show the effectiveness of policy poisoning attacks.
研究の動機と目的
- バッチRLと制御学習者が、バッチデータセットからダイナミクスと報酬を推定するという前提のデータ汚染の脅威を動機づけ formalize する。
- 汎用性のある最適化フレームワークを開発し、汚染攻撃の妥当性と全局最適性を保証する。
- 代表的な二つの被害者:tabular certainty equivalence (TCE) および linear quadratic regulator (LQR) に対して攻撃を具体化・分析する。
- 攻撃の実現可能性とコストに関する理論的洞察を提供し、実験を通じて有効性を検証する。
提案手法
- 訓練報酬を変更してターゲットポリシーの学習を強制しつつ、報酬変更の選択されたノルムを最小化するという bi-level 攻撃を定式化する。
- epsilon-robust target Q-polytope を用いて、唯一のターゲットポリシーを保証する convex 最適化問題として攻撃を再表現する。
- TCE の場合、P の推定モデルを最大尤度法、R を最小二乗法で表現し、ターゲットポリシーとのベルマン整合性を課すことで凸プログラム(線形制約付き)を得る。
- 攻撃の実現可能性を証明し、サブ最適性ギャップ Delta(Δ) に関する関数として最小攻撃コストの境界を導出する。
- LQR の場合、バッチ識別を最小二乗法としてモデル化し、代理のリカッチ方程式構造を強制し、SDP 制約を扱いやすい形に緩和して凸代替攻撃を導出する。
- 小さな報酬摂動で学習者に攻撃者のターゲットポリシーを採用させ得ることを示す実証的デモを提供する。
実験結果
リサーチクエスチョン
- RQ1バッチ RL や制御学習者を、訓練報酬の最小限の摂動だけでターゲットポリシーを学習させることができるか。
- RQ2TCE および LQR のような一般的なバッチ学習被害者に対して、ポリシー汚染最適化は凸性(妥当性)を持つか。
- RQ3バッチRL/制御設定におけるポリシー汚染の理論的実現性保証とコスト境界は何か。
- RQ4実践的な実験は、学習を攻撃者指定のポリシーへ向けるのに小さな報酬変更で十分であることを示すか。
主な発見
- ポリシー汚染攻撃は実現可能であり、全局解を持つ凸最適化問題として定式化できる。
- TCE の場合、任意のターゲットポリシーに対して実現可能な攻撃が存在し、攻撃コストはサブ最適性ギャップ Delta(Δ) に比例してスケーリングする。
- 攻撃コストの境界は、Δ=1 のとき T に対して線形、Δ=2 のとき sqrt(T)、Δ=F のとき定数となり、Δ=1 の場合は疎攻撃が可能である。
- LQR の場合、リカッチ方程式と整合する攻撃者が選択したターゲットポリシーを小さな報酬摂動で誘導でき、攻撃コストは元データに対して小さいままである。
- 実験は、学習者がターゲットポリシーに従うように促しつつ報酬を適度に摂動することが可能であることを示し、α=1 の疎攻撃も可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。