QUICK REVIEW

[論文レビュー] Online Learning via Differential Privacy.

Jacob Abernethy, Chansoo Lee|arXiv (Cornell University)|Nov 27, 2017

Advanced Bandit Algorithms Research参考文献 16被引用数 7

ひとこと要約

本稿では、オンライン学習におけるより緊密なレグレット解析を可能にするために、1ステップの微分的安定性を導入する。微分プライバシーの道具を活用し、完全情報および部分情報設定下でのフォローザペチューブドリーダー（follow-the-perturbed-leader）アルゴリズムに対して、1次レグレットバウンドを導出する。さらに、最大発散（max-divergence）をタサラス最大発散（Tsallis max-divergences）に一般化することで、バンディット問題における安定性解析を強化する。

ABSTRACT

In this paper, we use differential privacy as a lens to examine online learning in both full and partial information settings. The differential privacy framework is, at heart, less about privacy and more about algorithmic stability, and thus has found application in domains well beyond those where information security is central. Here we develop an algorithmic property called one-step differential stability which facilitates a more refined regret analysis for online learning methods. We show that tools from the differential privacy literature can yield regret bounds for many interesting online learning problems including online convex optimization and online linear optimization. Our stability notion is particularly well-suited for deriving first-order regret bounds for follow-the-perturbed-leader algorithms, something that all previous analyses have struggled to achieve. We also generalize the standard max-divergence to obtain a broader class called Tsallis max-divergences. These define stronger notions of stability that are useful in deriving bounds in partial information settings such as multi-armed bandits and bandits with experts.

研究の動機と目的

オンライン学習アルゴリズムのレグレット解析に向けた、より洗練された安定性概念「1ステップの微分的安定性」の開発。
微分プライバシーの手法をオンライン凸最適化および線形最適化に応用し、プライバシーの文脈を超えてアルゴリズムの安定性に応用する。
フォローザペチューブドリーダーのアルゴリズムに対して、1次レグレットバウンドを達成すること。これは、従来の文献では未解決の課題であった。
部分情報設定（例：マルチアームドバンディット）におけるより強い安定性保証を得るため、最大発散をタサラス最大発散に一般化すること。
エキスパートを伴うバンディット問題における、より緊密なレグレット解析を可能にする、微分プライバシーから導出された強化された安定性測度の導入。

提案手法

オンライン学習のレグレット解析に特化した、新しいアルゴリズム的安定性特性「1ステップの微分的安定性」を導入する。
微分プライバシーの技術を応用して、完全情報設定（例：オンライン凸最適化）におけるレグレットバウンドを導出する。
1ステップの微分的安定性を用いて、フォローザペチューブドリーダーのアルゴリズムに対して1次レグレットバウンドを達成し、従来の解析の限界を克服する。
標準的な最大発散をタサラス最大発散に一般化し、部分情報設定におけるより強い安定性概念を可能にする。
タサラス最大発散を、マルチアームドバンディットやエキスパートを伴うバンディット問題などに応用し、より緊密なレグレットバウンドを導出する。
微分プライバシーとアルゴリズム的安定性の関係を活用して、オンライン学習フレームワーク全体にわたるレグレット解析の統一と強化を実現する。

実験結果

リサーチクエスチョン

RQ11ステップの微分的安定性を用いて、オンライン学習アルゴリズムのより緊密なレグレットバウンドを導出可能か？
RQ2微分プライバシーの手法を、プライバシーの懸念を超えて、レグレット解析の向上に再利用可能か？
RQ3なぜ従来の解析ではフォローザペチューブドリーダーに対して1次レグレットバウンドを達成できなかったのか？1ステップの安定性がこの問題を解決できるか？
RQ4タサラス最大発散のような一般化された発散を用いることで、部分情報設定における安定性とレグレットバウンドが向上するか？
RQ5微分プライバシーから得られる安定性フレームワークを、エキスパートを伴うバンディット問題にどの程度まで拡張可能か？

主な発見

1ステップの微分的安定性により、フォローザペチューブドリーダーのアルゴリズムに対して、1次レグレットバウンドの初の導出が可能となり、長年の文献的限界が解消された。
微分プライバシーの手法の応用により、プライバシー保護の文脈を超えて、オンライン凸最適化および線形最適化におけるレグレットバウンドが改善された。
タサラス最大発散は標準的な最大発散を一般化し、マルチアームドバンディットなどの部分情報設定におけるより強い安定性保証を提供する。
提案された安定性フレームワークにより、エキスパートを伴うバンディット問題におけるより緊密なレグレット解析が可能となり、強化された発散測度によって既存のバウンドを上回る。
微分プライバシーとアルゴリズム的安定性の関係が明確に形式化され、オンライン学習モデル全体にわたるレグレット解析の統一と強化に活用された。
洗練された安定性概念と一般化された発散を活用することで、完全情報および部分情報設定の両方において、より良いレグレット性能が保証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。