QUICK REVIEW

[論文レビュー] Adversarial Attacks on Stochastic Bandits

Kwang-Sung Jun, Lihong Li|arXiv (Cornell University)|Oct 29, 2018

Advanced Bandit Algorithms Research被引用数 51

ひとこと要約

本論文は確率的多臂バンディットに対する報酬操作攻撃を示し、攻撃者が真の平均を知らなくても ε-グリーディーおよび UCB 学習器に対して、攻撃コストが対数的であるだけで、エージェントにターゲットアームを優先させることができることを示す。

ABSTRACT

We study adversarial attacks that manipulate the reward signals to control the actions chosen by a stochastic multi-armed bandit algorithm. We propose the first attack against two popular bandit algorithms: $ε$-greedy and UCB, \emph{without} knowledge of the mean rewards. The attacker is able to spend only logarithmic effort, multiplied by a problem-specific parameter that becomes smaller as the bandit problem gets easier to attack. The result means the attacker can easily hijack the behavior of the bandit algorithm to promote or obstruct certain actions, say, a particular medical treatment. As bandits are seeing increasingly wide use in practice, our study exposes a significant security threat.

研究の動機と目的

推奨システム、広告、医療決定などに使われる確率的MABに対する潜在的な敵対的攻撃を研究することによって、信頼できるオンライン学習を動機づける。
世界 (world)、ボブ・ザ・バンディット、アリスの攻撃者という3者モデルを定義し、報酬操作攻撃を形式化する。
知識を持たない攻撃者が、人気のあるバンディットに対してオラクル攻撃にほぼ匹敵することを、サブリニアな攻撃コストで示す。
理論的保証と経験的検証を伴う ε-greedy および UCB の攻撃戦略を提供する。
このような攻撃に対するセキュリティ上の意味と防御の方向性を論じる。

提案手法

報酬攻撃を定義する: r_t = r_t^0 - α_t として、α_t が攻撃である。
攻撃コストと成功を、ターゲットアーム K を O(T) 回引かせること、総攻撃コストを O(log T) として特徴づける。
真の平均 μ_i の知識なしに動作する ε-greedy および UCB の攻撃アルゴリズムを開発する。
β(N) = sqrt( (2σ^2/N) log(π^2 K N^2 / (3δ)) ) のような濃度表現を用いた高確率境界を導出する。
対数的後悔アルゴリズムの下で、総攻撃コストは ε-greedy に対して O(sum_i Δ_i log T)、および UCB に対応する境界であることを証明する。
コレラリと固定パラメータ解析を提供し、コストが Δ_i、σ、T とともにどうスケールするかを示す。

実験結果

リサーチクエスチョン

RQ1オンライン攻撃者がアームの平均を知らない状態で、確率的バンディットを操作してターゲットアームを過剰に引くことができるか？
RQ2報酬操作下での ε-greedy と UCB の攻撃戦略とコスト保証は何か。
RQ3攻撃コストは時間的な幅 T、報酬ギャップ Δ_i、サブガウシアンパラメータ σ に対してどのようにスケールするか。
RQ4このような攻撃は現実的な仮定の下で成り立つのか、そして防御に対して何を意味するのか。
RQ5経験的結果は理論的境界をどの程度裏付けるか。

主な発見

攻撃者はターゲットアームをほぼ全ラウンド引かせることができ、総攻撃コストは T に対して対数的に増加する。
ε-greedy で典型的な ε_t ~ 1/t の場合、攻撃コストは Õ((Σ_i Δ_i) log T + σ K sqrt(log T)) にスケールする。
UCB の場合、ターゲットアームを強制する攻撃はコスト Õ((Σ_i (Δ_i+Δ_0)) log T + σ の項) となり、固定予算設定では Σ_i Δ_i に依存しないコストを達成する。
μ_i を知るオラクル様式の攻撃は実用的でないため、影響は μ_i 知識なしの提案された適応攻撃に依存する。
経験的シミュレーションは理論的主張と一致し、攻撃コストの対数的増加とターゲットアームの引き込みのほぼ完遂を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。