[論文レビュー] Collecting Telemetry Data Privately
本論文は、カウンタデータの繰り返し収集に対して局所差分プライバシー(LDP)機構を開発し、αポイント丸めとメモ化を導入して時間を通じた精度とプライバシーを維持する。さらにMicrosoftによる実世界での展開が行われている。
The collection and analysis of telemetry data from users' devices is routinely performed by many software companies. Telemetry collection leads to improved user experience but poses significant risks to users' privacy. Locally differentially private (LDP) algorithms have recently emerged as the main tool that allows data collectors to estimate various population statistics, while preserving privacy. The guarantees provided by such algorithms are typically very strong for a single round of telemetry collection, but degrade rapidly when telemetry is collected regularly. In particular, existing LDP algorithms are not suitable for repeated collection of counter data such as daily app usage statistics. In this paper, we develop new LDP mechanisms geared towards repeated collection of counter data, with formal privacy guarantees even after being executed for an arbitrarily long period of time. For two basic analytical tasks, mean estimation and histogram estimation, our LDP mechanisms for repeated data collection provide estimates with comparable or even the same accuracy as existing single-round LDP collection mechanisms. We conduct empirical evaluation on real-world counter datasets to verify our theoretical results. Our mechanisms have been deployed by Microsoft to collect telemetry across millions of devices.
研究の動機と目的
- 継続的なテレメトリデータ収集におけるプライバシーリスクを動機づけ、時間とともに堅牢なLDP保証の必要性を語る。
- 平均値とヒストグラム推定のためのシンプルな1ビット局所DP機構を開発する。
- α-point roundingとメモ化を導入して、プライバシーを保護しつつ継続的なデータ収集を可能にする。
- 繰り返し収集に対する正式なプライバシー保証を提供し、実用的な精度を分析する。
- 実世界のデバイス数百万に及ぶ実装で経験的性能を示し、実世界展開を実証する。
提案手法
- 単一ラウンドの平均推定のための1ビット局所DP機構(1BitMean)を提案し、出力式を明示する。
- ビット数dの機構(dBitFlip)をヒストグラム推定のために提案し、ビンのサンプリングとビンごとの乱数化を行う。
- 平均をバイアスさせずにメモ化前に秘密値を離散化するためのαポイント丸めを導入する。
- 離散化した値のメモ化を用いて、プライバシー保証を維持しつつ継続的なデータ収集を可能にする。
- ユーザー行動の大きな変化によるリークを緩和するために出力の摂動を組み込む。
- 単一ラウンド収集の正式なLDP保証と、継続観測下での拡張保証および確率的誤差境界を提供する。
実験結果
リサーチクエスチョン
- RQ1反復的なデータ収集設定において、局所DPの下で正確な平均とヒストグラム推定をどのように実現できるか?
- RQ2シンプルで低通信(1ビット)機構は、LDPにおける平均とヒストグラムのタスクで競争力の精度を提供できるか?
- RQ3αポイント丸めとメモ化の組み合わせは、継続的なプライバシー保証を可能にしつつ、無偏の推定値を保持できるか?
- RQ4継続収集の下でどのような正式なプライバシー保証が成り立ち、時間とともる振る舞いパターンとどのように関連するか?
- RQ5これらの機構は実世界のテレメトリデータでどのように動作し、数百万のユーザーに拡張できるか?
主な発見
- 1ビット平均推定機構(1BitMean)はepsilon-LDPを保持し、定量的な誤差境界を持つ有効な精度を示す。
- 1ビットベースのヒストグラム機構(dBitFlip)はepsilon-LDPを保持し、k個のビンにわたるヒストグラム推定の誤差を有界にする。
- αポイント丸め手法は、継続的なカウンタデータ収集にメモ化を使用することを可能にし、期待平均が無偏で、単一ラウンドの精度を犠牲にしない。
- αポイント丸めを伴う恒久的なメモ化は、類似のパターンを持つユーザー間のブレンドを確保することで、継続的な観測に対するプライバシー保証を提供する。
- これらの手法は実データセットで経験的に検証され、Windows 10 Fall Creators Updateに続くマイクロソフトの数百万台のデバイスへの展開が行われた。
- このフレームワークは実用的な展開を支持し、具体的な設定で性能向上を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。