[論文レビュー] Differentially Private Trajectory Data Publication
本稿では、大規模な軌跡データに対して、出力ドメインを段階的に狭めるためにノイズ付きプレフィックスツリーを活用する、データ依存型の微分プライバシーによるデータ洗練アルゴリズムを提案する。本手法は、カウントクエリおよび頻出順序パターン抽出の両方で高い実用性を達成し、実世界のデータセット(例:STMのデータ)にも効率的にスケーリング可能であり、120万件のレコードに対して25秒未塔の実行時間で処理を完了する。
With the increasing prevalence of location-aware devices, trajectory data has been generated and collected in various application domains. Trajectory data carries rich information that is useful for many data analysis tasks. Yet, improper publishing and use of trajectory data could jeopardize individual privacy. However, it has been shown that existing privacy-preserving trajectory data publishing methods derived from partition-based privacy models, for example k-anonymity, are unable to provide sufficient privacy protection. In this paper, motivated by the data publishing scenario at the Societe de transport de Montreal (STM), the public transit agency in Montreal area, we study the problem of publishing trajectory data under the rigorous differential privacy model. We propose an efficient data-dependent yet differentially private sanitization algorithm, which is applicable to different types of trajectory data. The efficiency of our approach comes from adaptively narrowing down the output domain by building a noisy prefix tree based on the underlying data. Moreover, as a post-processing step, we make use of the inherent constraints of a prefix tree to conduct constrained inferences, which lead to better utility. This is the first paper to introduce a practical solution for publishing large volume of trajectory data under differential privacy. We examine the utility of sanitized data in terms of count queries and frequent sequential pattern mining. Extensive experiments on real-life trajectory data from the STM demonstrate that our approach maintains high utility and is scalable to large trajectory datasets.
研究の動機と目的
- 軌跡データのプライバシー保護において、kアナニマティーなどのパーティションベースのプライバシーモデルに見られる限界を是正すること。
- 高い実用性を維持しながら、スケーラブルでデータ依存型の微分プライバシー準拠の軌跡データ公開手法を開発すること。
- 大規模な軌跡データセットの実用的公開を可能にするとともに、微分プライバシーの厳密なプライバシー保証を確保すること。
- ノイズ付きプレフィックスツリー構造に対する制約付き推論による後処理を通じて、データ実用性を向上させること。
提案手法
- 基礎となる軌跡データから構築されたノイズ付きプレフィックスツリーを用いて、出力ドメインを段階的に狭めるデータ依存型の微分プライバシー洗練アルゴリズムを提案する。
- 各レベルのノードカウントにラプラスノイズを適用することでノイズ付きプレフィックスツリーを構築し、(ε, δ)-微分プライバシーを保証する。
- 構造的一致性を強制するために、制約付き推論を後処理ステップとして用い、誤検出を低減し、実用性を向上させる。
- 基本的および完全な軌跡データタイプの両方に対して本手法を適用し、カウントクエリおよび頻出順序パターン抽出をサポートする。
- 出力ドメインの関連部分にのみ処理を集中させることで計算効率を最適化し、データに依存しない手法の指数的ブロードナップを回避する。
- 頻出順序パターン抽出の評価にPrefixSpanアルゴリズムを統合し、洗練済みデータを用いて実用性を評価する。
実験結果
リサーチクエスチョン
- RQ1データ依存型アプローチは、データに依存しない微分プライバシー手法に比べ、軌跡データに対してより高い実用性を達成できるか?
- RQ2ノイズ付きプレフィックスツリー構築は、プライバシー保護を維持しつつ、軌跡クエリの実用性をどのように保っているか?
- RQ3制約付き推論は、微分プライバシー準拠の軌跡データの実用性をどの程度向上させるか?
- RQ4本手法は、軌跡データセットのサイズおよび場所のユニバースサイズの増加に伴い、どのようにスケーリングするか?
- RQ5カウントクエリおよび順序パターン抽出といった実世界のデータマイニングタスクにおいて、洗練済みデータの実用性はいかほどか?
主な発見
- 本手法は、カウントクエリにおいて高い実用性を達成しており、強いプライバシー予算(ε=1.0)下でも最小限の歪みで処理される。
- 頻出順序パターン抽出においては、ε=1.0で169件の真陽性とたった31件の偽陰性を報告し、実用性の高い保持を示している。
- 実行時間はデータベースサイズおよび場所ユニバースサイズに線形にスケーリングされ、120万件のレコードに対してわずか24秒で処理が完了した。
- 制約付き推論は誤検出を顕著に低減し、ベースライン手法と比較して偽陰性が20%減少した。
- プライバシー予算(ε ∈ [0.5, 1.5])および高さパラメータ(h ∈ [6, 20])の変動に対しても高い実用性を維持しており、頑健性が確認された。
- 本手法は、大規模な軌跡データの微分プライバシー準拠公開のための最初の実用的ソリューションであり、効率性および実用性の両面で、データに依存しない手法を上回っている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。