QUICK REVIEW

[論文レビュー] Worst-Case Background Knowledge for Privacy-Preserving Data Publishing

David Martín, Daniel Kifer|arXiv (Cornell University)|May 19, 2007

Privacy-Preserving Technologies in Data参考文献 29被引用数 18

ひとこと要約

本稿は、プライバシー保護型データ公開における最悪事態の背景知識を形式的フレームワークで導入し、論理言語における基本的含意を用いて攻撃者知識をモデル化する。攻撃者が最大k個の知識を持つ場合の最大漏洩を計算する多項式時間アルゴリズムを提案するとともに、最悪事態の漏洩がしきい値を下回るようデータを洗練する手法を提供しており、k-匿名性やℓ-多様性よりも強いプライバシー保証を実現する。

ABSTRACT

Recent work has shown the necessity of considering an attacker's background knowledge when reasoning about privacy in data publishing. However, in practice, the data publisher does not know what background knowledge the attacker possesses. Thus, it is important to consider the worst-case. In this paper, we initiate a formal study of worst-case background knowledge. We propose a language that can express any background knowledge about the data. We provide a polynomial time algorithm to measure the amount of disclosure of sensitive information in the worst case, given that the attacker has at most a specified number of pieces of information in this language. We also provide a method to efficiently sanitize the data so that the amount of disclosure in the worst case is less than a specified threshold.

研究の動機と目的

公開されたデータにおいて個人を再識別しようとする攻撃者が保有できる最悪事態の背景知識を形式的にモデル化すること。
攻撃者知識が制限された状況下で、感覚的情報の最大漏洩をk個の基本的含意の観点で測定すること。
攻撃者の具体的な背景知識を事前に知らない状況でも、最悪事態の漏洩を計算する効率的なアルゴリズムを開発すること。
最悪事態の背景知識下でも、漏洩がユーザーが指定したしきい値を下回るように保証する洗練手法を提供すること。
k-匿名性やℓ-多様性を超えて、基本的含意の論理言語を用いて、より包括的な背景知識クラスを扱うことで、プライバシー保護を強化すること。

提案手法

本稿は、関係的関数依存や属性値制約などの、データに関するあらゆる可能な背景知識を表現するための論理言語としての基本的含意の定義を行う。
cが漏洩しきい値でkが攻撃者が保有できる基本的含意の最大数である(c,k)-安全という概念を導入する。
すべてのk個の基本的含意の集合についての最悪事態の漏洩を計算する多項式時間アルゴリズムを開発し、効率的なプライバシー分析を可能にする。
既存のラティス探索アルゴリズムと統合し、すべてのk個の知識セットに対して耐性を持つバケット化（データ匿名化）を同定するフレームワークを構築する。
本手法はバケット化（タプルのグループ化と機密値の並べ替え）を用い、非機密属性を一般化することで再識別を防ぐ。
最悪事態の状況下でも、攻撃者がk個を超える関連する知識を保有していない限り、機密値の漏洩確率がしきい値cを超えることはない。

実験結果

リサーチクエスチョン

RQ1攻撃者が最大k個の背景知識を持つ場合、感覚的情報の漏洩が最大どれほど発生しうるか。
RQ2攻撃者の正確な知識が分からない状況でも、この最悪事態の漏洩を効率的に計算する方法は何か。
RQ3最悪事態の背景知識下でも、指定されたしきい値を下回るようデータセットを洗練できるか。
RQ4k-匿名性やℓ-多様性といった既存のプライバシーモデルと比較して、本手法は背景知識に対してどれほど頑健か。
RQ5背景知識を表現する論理言語の選択が、洗練の過剰保守性に与える影響は何か。

主な発見

本稿は、攻撃者が最大k個の基本的含意を保有する場合の感覚的情報の最悪事態漏洩を計算する多項式時間アルゴリズムを提示し、効率的なプライバシー分析を可能にする。
フレームワークにより、データ洗練が(c,k)-安全を達成できることが保証され、任意のk個の知識セット下で漏洩がしきい値cを超えない。
本手法は、複雑な論理的組み合わせを含む幅広いクラスの背景知識に対処できる点で、ℓ-多様性よりもプライバシーの頑健性が優れている。
計算効率が高く、最適なバケット化を同定するための既存のラティスベースの探索アルゴリズムと統合可能である。
実験的結果から、ℓ-多様性と本手法の(c,k)-安全モデルは類似した最大漏洩を示しており、(c,k)-安全モデルがより強いプライバシー保証を提供していることが示唆される。
フレームワークは拡張可能であり、基本的含意の言語により表現力の高い原子を追加することで、洗練の過剰保守性を低減できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。