QUICK REVIEW

[論文レビュー] Differentially-Private "Draw and Discard" Machine Learning

Vasyl Pihur, Aleksandra Korolova|arXiv (Cornell University)|Jul 11, 2018

Privacy-Preserving Technologies in Data参考文献 32被引用数 28

ひとこと要約

本稿では、k 個のモデルインスタンスをサーバーで維持し、クライアントごとにランダムに選択された1つのインスタンスを更新・更新後は古くなったバージョンを破棄することで、非同期的かつスケーラブルな機械学習においてローカル微分プライバシーを達成する、新しいクライアント分散型フレームワークである Draw and Discard Machine Learning (DDML) を提案する。この手法は強力なプライバシー保証を実現し、平均化によるモデルの有用性向上を図り、スパム保護機能やシステムのレジリエンスを備えた実用的導入を可能にする。

ABSTRACT

In this work, we propose a novel framework for privacy-preserving client-distributed machine learning. It is motivated by the desire to achieve differential privacy guarantees in the local model of privacy in a way that satisfies all systems constraints using asynchronous client-server communication and provides attractive model learning properties. We call it "Draw and Discard" because it relies on random sampling of models for load distribution (scalability), which also provides additional server-side privacy protections and improved model quality through averaging. We present the mechanics of client and server components of "Draw and Discard" and demonstrate how the framework can be applied to learning Generalized Linear models. We then analyze the privacy guarantees provided by our approach against several types of adversaries and showcase experimental results that provide evidence for the framework's viability in practical deployments.

研究の動機と目的

ローカル微分プライバシーの枠組み下で、実用的でスケーラブルかつプライベートな機械学習フレームワークをクライアント分散型システムに設計すること。
数百万台のデバイスにわたる非同期なモデル学習を効率的に行いながら、強力なプライバシー保証を維持する課題に対処すること。
スパム検出、負荷分散、プライバシー強化を可能にするシステムアーキテクチャを提供し、モデルの有用性を損なわずに実現すること。
最小限のパフォーマンスオーバーヘッドで、実世界のモバイルアプリケーションにおけるローカル微分プライバシーの実現可能性を示すこと。
最小限の工学的複雑性で、生産環境におけるプライバシー保護型機械学習の展開を可能にすること。

提案手法

フレームワークは、クライアントの更新先をランダムに選択することで負荷分散とスケーラビリティを実現するため、サーバーに k 個の独立したモデルインスタンスを維持する。
クライアントはラプラスまたはガウスノイズを用いて、微分プライバシーを満たす更新をローカルで計算し、ユーザーレベルでのローカル微分プライバシーを保証する。
各クライアントは、更新対象のモデルインスタンスをランダムに選択し、生の勾配ではなく更新済みのモデル本体のみをサーバーに送信することで、サーバー側のプライバシーを強化する。
サーバーは、ランダムに選択されたモデルインスタンスを更新済みのものに置き換えることで、同期なしに継続的かつロックフリーな学習を実現する。
k 個のインスタンス間でのモデル平均化により、分散が安定し、単一インスタンスアプローチに比べて有限標本性能が向上する。
サンプリングとモデル平均化によるプライバシー強化を活用することで、最も強いローカルモデル攻撃者よりも弱い攻撃者に対しても、より強いプライバシー保証が得られる。

実験結果

リサーチクエスチョン

RQ1信頼できるキュレーターに依存せずに、ローカル微分プライバシーのみを用いて実用的でスケーラブルかつプライベートな機械学習システムを構築できるか？
RQ2非同期かつ分散環境下で、数百万のクライアントにわたるモデル更新を、効率的かつプライベートに集約する方法は何か？
RQ3複数のモデルインスタンスを維持することで、モデルの有用性、プライバシー、システムのレジリエンスにどのような影響を与えるか？
RQ4ドロー＆ドロップ機構は、追加のノイズ付与と平均化により、標準的なローカルDPに比べてより強力なプライバシー保証を提供できるか？
RQ5代替的なプライベート学習戦略と比較して、本フレームワークは実世界の展開においてどのように性能を発揮するか？

主な発見

DDML は、クライアント側のモデル更新に適切にスケーリングされたノイズを適用することで、純粋なローカル微分プライバシーを達成し、データ収集者に対しても強力なプライバシー保証を実現する。
k 個のモデルインスタンスの使用により、同期や中断がなく、継続的かつ非同期的な学習が可能となり、システムのスケーラビリティと可用性が顕著に向上する。
k 個のインスタンス間でのモデル平均化により、分散が安定化し、単一インスタンス更新戦略に比べて優れた有限標本性能が得られる。
更新済みのモデル（生の勾配ではない）のみがサーバーに送信されるため、より弱い攻撃者に対するプライバシー強化が実現される。
スパム検出機能が、複数のモデルインスタンスの維持によって実現可能であるため、実世界での展開における実用的妥当性が示された。
ニューラルネットワークや微分可能な目的関数を持つその他のモデルに対しても拡張可能であり、高度なノイズ分布やプライバシーの緩和を用いることで、さらなる有用性向上が期待できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。