Skip to main content
QUICK REVIEW

[論文レビュー] Differential Privacy for Multi-armed Bandits: What Is It and What Is Its Cost?

Debabrota Basu, Christos Dimitrakakis|arXiv (Cornell University)|May 29, 2019
Advanced Bandit Algorithms Research参考文献 18被引用数 18
ひとこと要約

本稿は、マルチアームドバンディットにおける微分プライバシー定義を統一し、グラフィカルフレームワークを用いてプライバシーをモデル化し、さまざまなプライバシー制約下でのミニマックスおよびベイジアンレグレットの下界を導出する。プライバシーはεに依存する乗法的要因によって性能を低下させることを示し、報酬に対してローカル微分プライバシーが課されない場合には劣化が弱いことを明らかにする。

ABSTRACT

Based on differential privacy (DP) framework, we introduce and unify privacy definitions for the multi-armed bandit algorithms. We represent the framework with a unified graphical model and use it to connect privacy definitions. We derive and contrast lower bounds on the regret of bandit algorithms satisfying these definitions. We leverage a unified proving technique to achieve all the lower bounds. We show that for all of them, the learner's regret is increased by a multiplicative factor dependent on the privacy level $ε$. We observe that the dependency is weaker when we do not require local differential privacy for the rewards.

研究の動機と目的

  • マルチアームドバンディット設定における微分プライバシー定義を統一・形式化し、特に入力、出力、近傍定義のあいまいさを解消すること。
  • さまざまなプライバシー制約下でのミニマックスおよびベイジアンレグレット下界を導出することで、プライバシーと学習効率のトレードオフを分析すること。
  • バンディットアルゴリズムにおけるローカルと非ローカル微分プライバシー機構の性能コストを比較すること。
  • 微分プライバシーに適応したKLダイバージェンス分解補題を用いて、一般のレグレット下界の証明フレームワークを確立すること。
  • レグレットの増加量としてのプライバシーの根本的コストを、εに依存する乗法的要因として定量化すること。

提案手法

  • 入力、出力、近傍構造に基づいてプライバシー制約を定義するための統一的グラフィカルモデルを提案し、バンディット学習プロセスを表現する。
  • 標準的およびローカル微分プライバシー定義に適した一般化されたKLダイバージェンス分解補題を導入し、一様なレグレット解析を可能にする。
  • 仮説検定と情報理論的境界に基づく証明技術を用いて、ミニマックスおよびベイジアンレグレット下界を導出する。
  • 最適アームが異なる2つの環境のペアを用いて、方策に起因する分布間のダイバージェンスを通じて下界を構築する。
  • 近隣入力下での結果分布間のKullback-Leiblerダイバージェンスを境界化し、εを用いてプライバシー制約を組み込むことで、レグレットバウンドを導出する。
  • レグレットとプライバシーのトレードオフをバランスさせるために、劣性ギャップΔを選び、漸近的にタイトな境界を導く。

実験結果

リサーチクエスチョン

  • RQ1マルチアームドバンディットにおける微分プライバシー下で適用可能な根本的プライバシー定義は何か。それらはどのように関係しているか。
  • RQ2プライベート入力(例:報酬 vs. 結果)の選択が、微分プライバシー付きバンディットアルゴリズムのレグレットにどのように影響するか。
  • RQ3ε-微分プライバシーを持つバンディットアルゴリズムが達成可能な最小のレグレットは何か。それはεおよびTとどのようにスケーリングされるか。
  • RQ4ローカル微分プライバシーの性能コストは、非ローカルメカニズムと比較して、レグレットの観点からどのように異なるか。
  • RQ5ε → 0 のとき、レグレット下界の漸近的挙動は何か。これは強いプライバシーのコストにどのような意味を持つのか。

主な発見

  • ε-微分プライバシーを持つバンディットのミニマックスレグレットは、非プライベートレグレットに √(ln(ε+1)/(ε^(1+1/ε) ⋅ (ε²+1)^(1/ε))) の要因を乗じた下界を持つ。
  • ε-微分プライバシー下では、レグレット下界が √(ln(ε²+1)/(e^{6ε} ⋅ ε^{1+1/ε} ⋅ (ε+B)^{1/ε})) のオーダーの乗法的要因で劣化する。
  • ε → 0 のとき、レグレット下界は無限大に近づく。これは、ほぼ完全なプライバシーがアルゴリズムに無作為探索を強いることを示し、結果としてTのオーダーのレグレットを引き起こす。
  • 報酬に対してローカル微分プライバシーが要求されない場合には、εに依存する依存性が弱くなるため、そのような設定で性能上の利点があることが示唆される。
  • 導出されたミニマックスおよびベイジアンレグレットバウンドは、微分プライバシー付きバンディットにおける最初の結果であり、プライバシー・ユーティリティのトレードオフの理論的基盤を提供する。
  • レグレットバウンドは対数要因を除きタイトであり、有限分散および有界報酬環境の両方で成り立ち、L(リプシッツ定数)および報酬ギャップΔに明示的な依存性を持つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。