QUICK REVIEW

[論文レビュー] Privacy-preserving Data Splitting: A Combinatorial Approach

Oriol Farràs, Jordi Ribes-González|arXiv (Cornell University)|Jan 18, 2018

Privacy-Preserving Technologies in Data被引用数 1

ひとこと要約

本稿では、プライバシー制約と処理制約をそれぞれ集合族 A および B としてモデル化することで、プライバシー保護型データ分割の組合せ的枠組みを提案する。(A,B)-カバーを最適なデータ断片化を表すものとして導入し、最適性を保証するためのグレブナー基底を用いて問題を解き、効率性を追求するためのヒューリスティックを備えたグリーディアルゴリズムを提案。最適解が数時間かかるのに対し、本手法はミリ秒未満で近似的に最適な結果を達成する。

ABSTRACT

Privacy-preserving data splitting is a technique that aims to protect data privacy by storing different fragments of data in different locations. In this work we give a new combinatorial formulation to the data splitting problem. We see the data splitting problem as a purely combinatorial problem, in which we have to split data attributes into different fragments in a way that satisfies certain combinatorial properties derived from processing and privacy constraints. Using this formulation, we develop new combinatorial and algebraic techniques to obtain solutions to the data splitting problem. We present an algebraic method which builds an optimal data splitting solution by using Gr\"{o}bner bases. Since this method is not efficient in general, we also develop a greedy algorithm for finding solutions that are not necessarily minimal sized.

研究の動機と目的

プライバシー保護型データ分割を、禁止される属性の組合せ（A）と共位置が必須とされるグループ（B）という2つの部分集合族を用いて、純粋な組合せ的問題としてモデル化すること。
データ分割問題を、プライバシー制約と処理制約の両方を満たす (A,B)-カバーの探索問題として形式化すること。
最適なサイズのデータ分解を計算するための代数的技法としてグレブナー基底を用いること。
最適性を犠牲にすることで効率性を高めたグリーディアルゴリズムを設計し、スパースな制約族に対しては解のサイズを改善するためのヒューリスティックを導入すること。
合成データおよび医療データセットを用いた実験を通じて、実行時間とサイズオーバーヘッドの分析により性能を評価すること。

提案手法

2つの集合族（A：禁止される属性の組合せ、B：共位置が必須とされるグループ）を定義することで、データ分割問題を組合せ的問題として定式化すること。
(A,B)-カバーを、属性を断片に分割する分割集合として定義し、A に属する集合が任意の断片に完全に含まれず、B に属する集合が少なくとも1つの断片に完全に含まれる条件を満たすものとする。
代数幾何学的手法を用いて (A,B)-カバー問題を多項式方程式系に変換し、グレブナー基底の計算により解を得られるようにすること。
B の制約を尊重しながら A の違反を最小限に抑えるように、属性を断片に逐次割り当てるグリーディアルゴリズムを実装すること。
制約がスパースな場合に、断片数を削減するために、属性を再評価・再割当するヒューリスティックをグリーディアルゴリズムに組み込むこと。
合成ランダムグラフと実際の医療データセットを用いて解を評価し、実行時間と最適解に対するサイズオーバーヘッドを測定すること。

実験結果

リサーチクエスチョン

RQ1属性の共位置に関する明示的制約を用いて、プライバシー保護型データ分割を組合せ的問題として形式化する方法は何か？
RQ2最適な (A,B)-カバーを求める問題の計算複雑性は何か？また、グレブナー基底のような代数的技法を用いて解けるか？
RQ3グリーディアルゴリズムの性能は、実行時間と解のサイズの観点から最適解と比べてどの程度か？
RQ4グリーディアルゴリズムのヒューリスティックな改良版は、スパースな制約族に対して断片数を顕著に削減できるか？
RQ5さまざまな問題密度において、グリーディアルゴリズムおよびヒューリスティックアルゴリズムの平均サイズオーバーヘッドは最適解に対してどの程度か？

主な発見

グレブナー基底を用いた代数的アプローチは最適なデータ分解を計算できるが、実行時間に数時間を要するため、大規模な問題に対しては実用的でない。
グリーディアルゴリズムはミリ秒未満で解を求めることが可能であり、最適な代数的手法に比べて顕著な性能優位性を示す。
n = 5 および ρ = 1.0 の場合、グリーディおよびヒューリスティックアルゴリズムは一貫して最適なカバーを生成する。
n = 7 および ρ = 0.5 の中程度の密度の制約において、ヒューリスティックアルゴリズムは平均で最大 3.6% の断片数削減を達成し、ベースのグリーディ手法よりも顕著な改善を示す。
n = 5 および ρ = 0.1 のスパースな制約において、ヒューリスティック解の平均サイズ増加は最適解に対して 1% 未満であり、スパースな状況ではほぼ最適性に近い性能を示す。
属性数および密度の増加に伴い、グリーディアルゴリズムと最適解との性能差は拡大するが、ヒューリスティック手法はスパースな制約集合に対してより優れたスケーラビリティを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。