QUICK REVIEW

[論文レビュー] Corrupt Bandits for Preserving Local Privacy

Pratik Gajane, Tanguy Urvoy|arXiv (Cornell University)|Aug 16, 2017

Advanced Bandit Algorithms Research被引用数 19

ひとこと要約

本稿では、報酬が既知の不正関数を介して確率的に変換される確率的マルチアームバンディット問題に対して、KL-UCB-CFおよびThompson Sampling-CF（TS-CF）の2つのバンディットアルゴリズムを提案する。著者らは、情報理論的下界に一致する問題依存のリグレットバウンドを確立し、不正パラメータを調整することで局所的微分プライバシーを達成しつつリグレットの増加を制御する方法を示している。

ABSTRACT

We study a variant of the stochastic multi-armed bandit (MAB) problem in which the rewards are corrupted. In this framework, motivated by privacy preservation in online recommender systems, the goal is to maximize the sum of the (unobserved) rewards, based on the observation of transformation of these rewards through a stochastic corruption process with known parameters. We provide a lower bound on the expected regret of any bandit algorithm in this corrupted setting. We devise a frequentist algorithm, KLUCB-CF, and a Bayesian algorithm, TS-CF and give upper bounds on their regret. We also provide the appropriate corruption parameters to guarantee a desired level of local privacy and analyze how this impacts the regret. Finally, we present some experimental results that confirm our analysis.

研究の動機と目的

真の報酬の確率的変換として観測される不正なフィードバックを伴うマルチアームバンディット問題に対処すること。
不完全で不正なフィードバックがある中でも、真の報酬の累積値を最大化するアルゴリズムを設計すること。
オンラインレコメンデーションシステムにおける局所的微分プライバシーの達成に、フィードバック不正の使用を形式化すること。
提案されたアルゴリズムの問題依存リグレットバウンドを導出し、情報理論的下界と一致することを示すこと。
プライバシー（不正強度を介して）と学習性能（リグレット）のトレードオフを定量的に評価すること。

提案手法

真の報酬平均 $ \mu_a $ を観測フィードバック平均 $ \lambda_a $ に写像する既知の平均不正関数 $ g_a $ を用いて、不正バンディット問題を形式化する。
観測フィードバック平均におけるKLダイバージェンスに基づく信頼区間を用いてアームを選択する頻度主義的手法であるKL-UCB-CFを提案する。
フィードバック平均に関する事後分布からサンプリングし、逆不正関数を用いて真の報酬平均を推定するベイジアン手法であるTS-CFを導入する。
信頼区間の違反やしきい値超過を含む事象に分割することで、非最適アームの期待選択回数を上界で制御し、リグレットの上界を導出する。
非単調な不正でさえも、最適アームのフィードバック平均を含む信頼区間が重複する場合に非最適アームが選択される確率を制御する、新しい技術的補題を用いる。
不正パラメータと局所的微分プライバシーとの間の関係を確立し、特定の不正行列が望ましいプライバシー水準を達成できることを示す。

実験結果

リサーチクエスチョン

RQ1確率的不正フィードバックが存在する状況でも最適なリグレットを達成するバンディットアルゴリズムを設計できるか？
RQ2フィードバック不正は、学習性能とユーザーのプライバシーの根本的トレードオフにどのように影響するか？
RQ3不正バンディット設定における情報理論的下界としてのリグレットの下界は何か？
RQ4既知の不正関数のもとで、下界に漸近的に達するアルゴリズムを構築できるか？
RQ5望ましいレベルの局所的微分プライバシーを達成しつつ、リグレットを最小限に抑えるために不正プロセスをどのように調整できるか？

主な発見

提案されたKL-UCB-CFおよびTS-CFアルゴリズムは、導出された情報理論的下界に一致する問題依存リグレットバウンドを達成する。これは対数要因を除いて最適である。
両アルゴリズムのリグレットは $ O(\log T) $ のスケールで増加し、不正フィードバック設定下での漸近的最適性を確認する。
非最適アームの期待選択回数は $ O(\log T) $ で有界であり、その定数は不正関数およびその単調性に依存する。
非単調な不正でさえも、最適フィードバック平均を含む信頼区間が重複する場合に非最適アームが選択される確率を制御する、新しい技術的補題が導入された。
著者らは、特定の不正行列を用いることで局所的微分プライバシーを達成できることを示し、リグレットはプライバシーパラメータに比例して増加することを示した。
実験結果は理論的分析を裏付け、KL-UCB-CFおよびTS-CFが、さまざまな不正設定下で累積リグレットの観点でベースライン手法を上回ることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。